搜索到3186篇“ 大规模语料库“的相关文章
日语色彩词「赤い」的认知语义研究——基于大规模语料库
2023年
该文基于大规模语料库从隐喻和转喻两个角度分析日语色彩词「赤い」的语义扩展机制,研究发现:(1)「赤い」的语义扩展方向是由表达主观感觉性质的语义扩展到表达客观存在性质的语义;(2)表达主观感觉性质的语义多于表达客观存在性质的语义;(3)基于身体经验的原型义很重要,是理解扩展义的前提;(4)在认知理据方面,基于隐喻的语义扩展少于基于转喻的语义扩展;(5)语义扩展程度较高。同时,日语学习者在学习日语色彩词时,也要先找到各义项间的认知理据,重点理解和把握原型义,了解日本人认知世界的方式,才能更好地学习扩展义。
韩笑钟勇
关键词:色彩词大规模语料库认知语言学语义扩展日语教学
基于大规模语料库的古籍汉字分级研究
党的十八大以来,继承和弘扬中华优秀传统文化成为实现民族伟大复兴的重要内容,古籍文献作为中华优秀传统文化的重要载体,是现代化建设必须继承的宝贵精神财富。面向不同学习能力的读者,如何提供合适的古籍文献阅读材料,促进古籍文献阅...
许长伟
关键词:字表
基于大规模语料库的“X不X”结构省略式研究
2022年
“X不X”结构本是典型的正反问格式,但在日常使用中用法逐渐扩大化,衍化出一系列省略形式。省略形式固定化后语义偏侧性更加明显,且更具口语化。省略形式的自然衍生是语音的自然脱落,属于典型的“有义无音”现象。同时“X不X”结构及其省略式也正在逐步语法化,起到充当话语标记的作用。
王素改李亚芳
关键词:动因
人类语言信息传递速率的共性——基于61种语言大规模语料库的计算被引量:3
2022年
人类语言在形式上纷繁多样,但作为信息传递工具,不同语言都使用发音–听觉信道完成信息传递。本文对覆盖49.8亿人口的61种语言的大规模语音、文本语料库数据进行了计算研究,以探讨不同语言信息传递的速率和策略。计算结果发现人类语言信息传递的速率和策略具有很强的共性:61种不同语言中,语言传递信息的速率都分布在14比特每秒左右,同时在词这一级单位上,不同语言有非常一致的信息密度(约6.8比特每词)和平均语速(约2词每秒),这意味着在词这一级单位上不同语言使用了完全一致的编码策略和信息速率。而不同语言在信息编码问题上的多样性主要体现在音节这一层级上。
孔超刘娟
关键词:语言共性言语交际信息速率信息编码
基于大规模语料库的古文词典构建及分词技术研究被引量:9
2021年
古文献的研究有助于传统文化的继承与发扬,而古文分词则是利用自然语言处理技术对古文献进行分析的重要环节。当前互联网拥有大量古汉语文本和词典方面的数据资料,该文提出利用互联网大规模古文语料构建古文基础词典;进而通过互信息、信息熵、位置成词概率多特征融合的新词发现方法从大规模古籍文本中建立候补词典;最终将基础词典与候补词典融合,形成含有349 740个字词的集成古文词典CCIDict。在CCIDict基础上,利用多种分词算法实现古文的分词。基于CCIDict的正向最大匹配算法与开源的分词器甲言比较后,F值提高了14%,取得了良好的效果,证明基于大规模古文语料库建立的古文词典,能够提供良好的古文分词效果。
邢付贵朱廷劭
关键词:大数据语料库
基于大规模语料库的现代汉语动宾搭配知识构建被引量:4
2021年
汉语缺乏词形变化,语法信息需通过词语搭配关系获得,且在生活中词语通常在搭配中发挥交际作用。因此无论是在语言学本体,还是在自然语言处理的各项任务中,词语搭配知识都尤为重要。各种搭配中,动宾搭配能够反映句子轮廓,并在数量和多样性方面具有优势地位,故该文聚焦于构建现代汉语动宾搭配知识,以期为自然语言处理提供基础知识,同时也为语言本体研究、语言教学等提供大量实例。该文首先从语言本体的角度出发,总结了动宾搭配的知识体系,并根据该体系制定相应形式化检索式140个,从BCC语料库中抽取动宾搭配知识,并对抽取结果进行了初步消歧,最终获得动宾搭配300万对,形成动宾搭配知识
王贵荣饶高琦荀恩东
关键词:动宾搭配知识抽取知识库
从汉字词汇的使用看汉字在东亚国家的前途——基于大规模语料库的考察被引量:2
2021年
日本、韩国、越南等东亚国家的汉字一直是社会各界关注的热点。由于日韩越三国分别实行不同的语言政策,其结果是日本书面语中仍大量使用汉字,而韩国汉字消失殆尽,越南彻底废除汉字。但是近年来韩国、越南出现了恢复使用汉字的呼声。根据对日本、韩国、越南的现代语言的大规模数据调查,虽然韩国、越南基本不使用汉字,但是,这些语言中的汉字词汇并没有受到这些国家限制或者废除汉字的语言政策的影响,仍然大量存在,日本汉字词汇的使用量较明治时期也所增长,汉字词汇就像汉字的种子埋藏在这些国家的语言中。随着社会的进步,原先废除汉字的原因正在逐步消失,只要条件成熟,汉字在这些国家的前途是光明的。
施建军
关键词:汉字词汇大规模语料库信息技术
基于大规模语料库的介词结构搭配构建被引量:8
2020年
语言知识可帮助计算机正确地处理自然语言,介词结构知识作为语言知识的一种,对自然语言处理和语言教学研究有很重要的意义。该文基于大规模语料库构建了高质量的介词结构搭配。首先在前人研究的基础上,对介词进行归类并建立了介词搭配知识体系,而后设计并实现了从大数据中获取介词结构搭配知识的规则,最后对抽取结果及其数据规模进行了统计和评估,主要目的是通过形式手段获取高质量的介词结构搭配,同时也为自然语言处理和语言学基础研究及应用提供数据支持。
邢丹饶高琦荀恩东王诚文
关键词:语料库知识抽取
基于大规模语料库的介词结构搭配构建
语言知识驱动计算机正确地处理自然语言,介词结构知识对自然语言处理和语言教学研究有很重要的意义.本文基于大规模语料库构建了高质量的介词结构搭配.首先在前人研究的基础上对介词进行归类并建立了介词搭配知识体系,而后设计并实现...
关键词:语料库知识抽取
基于大规模语料库的现代汉语动宾搭配知识构建
汉语缺乏词形变化,语法信息需通过词语搭配关系获得,且在语言生活中词语通常在搭配中发挥交际作用.因此无论是在语言学本体,还是在自然语言处理的各项任务中,词语搭配知识都尤为重要.各种搭配中,动宾搭配能够反映句子轮廓,并在数量...
王贵荣饶高琦荀恩东
关键词:现代汉语动宾搭配知识库知识抽取

相关作者

初佃辉
作品数:203被引量:392H指数:12
供职机构:哈尔滨工业大学
研究主题:终端 网络图 快递 虚拟数据中心 邻域搜索
饶高琦
作品数:52被引量:692H指数:11
供职机构:北京语言大学
研究主题:语料库 语言 语言资源 中文教育 现代汉语
郑江滨
作品数:130被引量:414H指数:11
供职机构:西北工业大学
研究主题:伪造图像 图像 遥感图像 标记点 支撑矢量机
荀恩东
作品数:84被引量:543H指数:9
供职机构:北京语言大学
研究主题:语料库 汉字书写 BCC 机器翻译 笔画
张曼
作品数:73被引量:7H指数:2
供职机构:广州大学
研究主题:存储介质 入侵检测方法 入侵检测 网络安全 情报