搜索到904篇“ 自动分词“的相关文章
基于中医疫病古籍文本自动分词的药物规律挖掘研究
2025年
[目的/意义]数字人文背景下的中医疫病古籍文本自动分词和基于分词结果的药物规律挖掘,是促进古籍知识活化与支持临床诊疗的重要途径。[方法/过程]本文提出了一种基于中医疫病古籍文本自动分词的药物规律挖掘框架,该框架包含了数据获取层、序列标注层、自动分词层和应用服务层,通过4层协作联动最终实现了疫病古籍文本的自动分词和药物规律挖掘应用。[结果/结论]实证结果表明,框架包含的基于BiLSTM-CRF的中医疫病古籍文本自动分词效果综合性能达92%。在分词结果基础上统计方剂中各类剂型、常用中药和常用药对等药物规律挖掘结果,为未来疫情防控指导、诊疗决策辅助提供了支持。
刘嘉宇李贺于琳时倩如侯力铁
关键词:知识挖掘
融合部首信息的古汉语自动分词与词性标注一体化分析被引量:1
2024年
[目的]针对现有古汉语自动分词与词性标注技术存在的准确度不高、效率不高等问题,提出一种融合部首信息的古汉语自动分词与词性标注一体化模型.[方法]基于7万余条汉字及其部首的数据,构建部首向量表示模型Radical2Vector.并将Radical2Vector模型与古汉语文本表示模型SikuRoBERTa相结合,共同拼接BiLSTM-CRF模型作为实验的主体模型结构.同时,设计分词与词性双层标注方案,在《左传》数据集上进行自动分词与词性标注一体化实验.[结果]模型分词任务的F1值达到95.75%,词性标注任务的F1值达91.65%,相比基线模型分别提高8.71和13.88个百分点.[局限]仅融合了每个汉字的单个部首信息,未利用汉字的其他部件信息.[结论]本文成功融入汉字部首信息,有效提升了古汉语文本的表示效果.通过分词与词性标注的一体化方案,本文构建的模型在分词与词性标注任务上表现出色.
常博林袁义国李斌李斌冯敏萱冯敏萱
关键词:自动分词
基于ASBC模型的藏文自动分词方法研究被引量:1
2023年
藏文分词是藏文自然语言处理的前提工作,其效果将影响藏文自然语言处理的下游任务。神经网络的兴起,使结合预训练语言模型的深度学习方法成为分词研究的主流。针对传统神经网络获取语义信息有限的问题,论文利用大规模藏文语料库构建ALBERT预训练语言模型,同时引入藏文音节特征融合的方法,提出了基于深度学习的ALBERT预训练与音节特征融合的双向长短时记忆条件随机场藏文分词模型(ALBERT-Syllable-BiLSTM-CRF,ASBC)。实验在多主题数据集上进行,主要验证了ALBERT预训练语言模型和音节特征融合对藏文分词的有效性,最终模型分词效果得到明显提升。
尹宗鹤尼玛次仁尼玛次仁拥措
关键词:藏文自动分词ALBERT
基于自动分词的新闻文本处理方法
本发明公开了一种基于自动分词的新闻文本处理方法。该方法首先生成词组数据库。接着提取时事文本、领域标签、新闻文本,对比时事文本与基础词组,确定该时事文本的多个有源词组以及无源词组。然后检索新闻文本中与有源词组和无源词组相同...
黄振华李惠惠
古汉语自动分词技术研究现状及进展
2022年
古汉语自动分词技术是实现古汉语文本深度处理的重要前提。经过多年探索,该领域已有了实质性进展。但是古汉语自动分词仍然面临一些关键问题:分词粒度界定、歧义消解和未登录词处理等。通过对基于词典和统计、机器学习序列标注以及深度神经网络模型等自动分词方法研究现状的梳理,指明充分利用深度学习技术是古汉语自动分词的未来发展趋势,并对古汉语自动分词的探索提出了三个方面的展望:扩充古汉语分词语料数据量、构建适应不同文本领域的分词模型、开发一体化模型。
王进张义
关键词:古代汉语自动分词自然语言处理
基于数据挖掘的网络检索自动分词系统设计被引量:3
2022年
传统网络检索自动分词系统存在检索速度慢、分词准确率和召回率低等问题,为解决上述问题,设计基于数据挖掘的网络检索自动分词系统。首先,依据网络检索自动分词器的工作原理对网络检索词汇进行分类;其次,基于数据挖掘技术挖掘词汇数据库中的网络检索词汇数据,利用分词主题来查询网络检索主题,将搜索后的网络检索结果与主题相匹配,以完成网络检索词汇的分词处理;最后,根据词频数据总和与阈值的关系,改进网络检索自动分词算法。实验结果表明:所设计系统对人民日报BCC语料网络检索词汇的自动分词准确率为94.33%,召回率为91.87%,F值为90.29%,且系统的平均分词速度达到了127 kb/s。
陈志锋
关键词:数据挖掘网络检索自动分词
藏文自动分词技术研究被引量:3
2022年
分词是自然语言处理的基础任务,本文针对藏文分词中的特殊问题及其研究成果进行了梳理,为今后学者开展该领域的相关研究提供参考和借鉴。重点阐述和分析了藏文自身语法带来的分词难点和藏文分词时的歧义和未登录词问题,并分析了目前藏文领域研究的最新方法和发展趋势。结果表明,藏文分词的重难点在各种方法中得到了一定程度的解决,但各种单一方法都存在不足,必要时可多种方法结合使用。
刘晓彤赵小兵
关键词:藏文分词语法未登录词歧义
面向数字人文的融合外部特征的典籍自动分词研究——以SikuBERT预训练模型为例被引量:30
2022年
数字人文研究为古籍文献的深度开发与展示提供了良好的平台。精准的文本分词是研究者在古籍文献处理中需要优先解决的问题。文章基于记载春秋至魏晋时期历史的最具有代表性的6部官修史籍构建古文分词语料库,结合预训练和词典信息融合两种策略,运用4种深度学习模型进行多组对比实验,以确定不同模型的适用范畴。在此基础上,开发面向繁体古文的分词工具,为从事数字人文的研究者提供简单有效的文本分词方法。
刘畅王东波胡昊天张逸勤李斌
关键词:自动分词
数字人文视角下的非物质文化遗产文本自动分词及应用研究被引量:12
2022年
文本自动分词是非物质文化遗产相关数字人文研究的基础与关键步骤,是深度发掘非遗内在信息的前提。文章构建了国家级非物质文化遗产项目申报文本自动分词模型,探究了融入领域知识的机器学习模型CRF、深度学习模型Bi-LSTM-CRF和预训练语言模型BERT、RoBERTa、ALBERT在非遗文本上的分词性能,并对比了通用分词工具HanLP、Jieba、NLPIR的效果。在全部14种模型中,RoBERTa模型效果最佳,F值达到了97.28%,预训练模型中ALBERT在同等条件下训练速度最快。调用分词模型,构建了非遗文本领域词表和全文分词语料库,对非遗文本词汇分布情况进行了分析挖掘。开发了中国非物质文化遗产文本自动分词系统(CITS),为非遗文本自动分词分词结果的多维可视化分析提供了工具。
胡昊天邓三鸿张逸勤张琪孔嘉王东波
关键词:非物质文化遗产中文分词ALBERT
基于自动分词的新闻文本处理方法
本发明公开了一种基于自动分词的新闻文本处理方法。该方法首先生成词组数据库。接着提取时事文本、领域标签、新闻文本,对比时事文本与基础词组,确定该时事文本的多个有源词组以及无源词组。然后检索新闻文本中与有源词组和无源词组相同...
黄振华李惠惠

相关作者

孙茂松
作品数:358被引量:2,405H指数:25
供职机构:清华大学
研究主题:向量 中文信息处理 机器翻译 句子 自然语言处理
郑家恒
作品数:92被引量:669H指数:13
供职机构:山西大学计算机与信息技术学院
研究主题:中文信息处理 语料库 汉语 自动分词 隐马尔可夫模型
黄德根
作品数:124被引量:790H指数:17
供职机构:大连理工大学
研究主题:机器翻译 支持向量机 中文信息处理 语料 名词短语
陈小荷
作品数:109被引量:901H指数:16
供职机构:南京师范大学文学院
研究主题:中文信息处理 自动识别 自动分词 条件随机场 知识表示
黄昌宁
作品数:82被引量:1,758H指数:24
供职机构:清华大学信息科学技术学院计算机科学与技术系
研究主题:自然语言处理 汉语 中文信息处理 句法分析 语料库