搜索到386篇“ 术语抽取“的相关文章
- 基于区间判别的半监督专业术语抽取方法、介质及设备
- 本发明公开了一种基于区间判别的半监督专业术语抽取方法、介质及设备,属于自然语言处理领域。本发明提出的基于区间判别的专业术语抽取方法中,针对专业术语的特性构建了包含语义特征、词性特征和长度特征在内的区间特征用于判别专业术语...
- 宗畅陈泽群
- 基于双步抽取的低资源中文工业领域术语抽取方法
- 2024年
- 工业领域数据集由各类操作文档、维修文档、设备图纸,以及不断增加的工单和工作记录等数据组成。现有的通用术语抽取方法在中文情景下效果受限,同时先验资源的匮乏也导致了传统的监督学习流程难以实现,因此业内常见模型在工业垂直领域术语抽取任务中的效果并不理想。为了解决上述问题,提出了一种基于预抽取和细化微调的双步抽取策略。在XLNet预训练模型的基础上,结合字符、字形和字音特征,增强了模型捕获语义信息的能力。采用LSTM编码器-解码器模型,生成含有错别字的负样本扩充数据集,旨在提升模型对噪音文本的鲁棒性。将本文方法应用于汽车工业领域,实验结果显示,本方法在该垂直领域的性能比现有传统方法提高了17%,充分证明了其有效性。
- 邢季刘瑾张建伟
- 关键词:自然语言处理术语抽取
- 无监督的自动术语抽取方法、装置、设备和介质
- 本申请涉及无监督的自动术语抽取方法、装置、设备和介质,方法包括:获取输入的文本语料并采用自然语言处理工具进行预处理;文本语料包括多篇文档;利用TF‑IDF技术和LDA主题模型,识别预处理后的文本语料的术语核心词;计算术语...
- 付东 李宇波 徐秦 葛亚维 吕昭
- 一种术语抽取方法及系统
- 本发明涉及一种术语抽取方法及系统,属于软件文字提取技术领域,本发明针对政策术语的特点,提出了一种基于零样本语义增强的多策略政策术语抽取方法,一方面采用融合频数、自由度、凝固度等多种策略,获得包含政策结构信息的术语新词,解...
- 张庆文朱涛刘玉鹏陈华林欧阳严峻
- 一种基于大规模语言模型和预训练微调机制的跨领域方面术语抽取方法
- 本发明公开了一种基于大规模语言模型和预训练微调机制的跨领域方面术语抽取方法。在跨领域方面术语抽取任务中,针对特定领域标记级标签数据的稀缺性,提出了一种基于大规模语言模型和预训练微调机制的跨领域方面术语抽取方法。本发明首先...
- 赵传君武美龄
- 基于多策略融合的领域术语抽取系统设计与实现
- 领域术语抽取是指从给定领域的文本中识别和提取出该领域的特定术语或专业术语的过程。通过领域术语抽取,可以自动化地创建领域词汇表,并帮助人们更快地了解领域的专业术语,以便更好地理解和解释相关文本。这个任务在自然语言处理、信息...
- 李倩迪
- 关键词:术语抽取元学习
- 基于文档级别关键术语抽取方法研究
- 随着电子化设备的普及,现代社会信息的传播途径得到了极大的开阔与拓展,信息呈现爆炸式增长的趋势,如何快速获得文本信息成了当下研究的热点,被称之为信息抽取。术语抽取为信息抽取的一种方法,它旨在从一段非结构化的文本中提取出最能...
- 韦丹妮
- 关键词:术语抽取语义信息
- 基于神经主题模型的术语抽取方法研究
- 伴随着移动互联网的高速发展和新兴领域的不断涌现,如何更快速全面地了解领域内的相关术语和知识结构成为研究的重点。术语抽取任务旨在从文本中抽取特定领域的相关概念,是构建特定领域术语库进而深入了解相关领域的关键技术。传统的术语...
- 路啸秋
- 关键词:主题模型术语抽取
- 关键术语抽取方法、装置、设备及计算机可读存储介质
- 本发明公开了一种关键术语抽取方法、装置、设备及计算机可读存储介质,该方法包括:根据预先构建的特定领域术语词典,对文本进行切分处理;利用预设的第一抽取窗口遍历文本,对切分处理后得到的词语进行抽取,获得特定领域的候选术语,根...
- 杜翠凤蒋仕宝
- 融合规则和统计特征的中文专业术语抽取方法和系统
- 一种融合规则和统计特征的中文专业术语抽取方法和系统,属于自然语言处理的技术领域,包括:在专业术语发现部分,采用自然语言处理领域通用的包含词频统计词典和概率算法的分词工具。在专业术语筛选阶段,提出了基于统计的词频、词条数、...
- 孙宇清李成龚斌
相关作者
- 吕学强

- 作品数:410被引量:1,410H指数:17
- 供职机构:北京信息科技大学
- 研究主题:抽取方法 图像 搜索日志 中文 条件随机场
- 王昊

- 作品数:215被引量:1,122H指数:17
- 供职机构:南京大学信息管理学院
- 研究主题:CSSCI 文本 本体 本体学习 文本分类
- 曾文

- 作品数:84被引量:392H指数:12
- 供职机构:中国科学技术信息研究所
- 研究主题:情报 科技情报 大数据 情报分析 数据分析
- 俞琰

- 作品数:32被引量:212H指数:10
- 供职机构:南京工业大学
- 研究主题:术语抽取 关键词 朋友 抽取方法 WEB信息抽取
- 李卓

- 作品数:97被引量:251H指数:8
- 供职机构:北京信息科技大学计算机学院
- 研究主题:感知 MAPREDUCE 通信开销 网络 聚类