搜索到265篇“ 内容抽取“的相关文章
基于规则与统计特征组合的网页内容抽取方法
本发明涉及一种基于规则与统计特征组合的网页内容抽取方法,包括以下步骤:将网页html源码转为dom树,保留被识别为正文区域的树节点、裁剪被识别为噪声区域的树节点,并对去除噪声区域的dom树进行副本保存;基于规则抽取和统计...
张鹏张瑞杰邱剑涛何聪辉
一种基于大语言模型的文献内容抽取方法和系统
本发明提供了一种基于大语言模型的文献内容抽取方法和系统,旨在提高科研效率,降低科研文献阅读耗费的时间成本。该方法包括:将需要抽取的文献上传至系统并进行格式化处理,形成结构化的数据内容;选择需要抽取的类型,创建抽取属性集合...
闫皓哲张君兰周顺祥单利群魏淑萍
一种基于OCR引擎的图表表格内容抽取方法
本发明公开了一种基于OCR引擎的图表表格内容抽取方法,包括将pdf格式的标书文件转换为图像文件;通过目标检测对标书图像文件中的表格进行识别;通过yolov5线段检测算法对表格中的行列进行检测识别,并记录其起始位置;通过行...
谢淮东卫沈傲蔡伟黄家志吴礼贵黄真懿
基于多模态大模型的截图内容抽取方法、系统和设备
本发明提供了一种基于多模态大模型的截图内容抽取方法,用于提取OTA酒店结构化信息,包括如下步骤:获取带有酒店信息的截图图像;通过光学字符识别模型对图像进行文本识别,得到文本信息框集合;通过图像定位模型对图像进行文字区域定...
陈炫宇成丹妮
一种基于人工智能的多媒体内容抽取系统
本发明公开了一种基于人工智能的多媒体内容抽取系统,包括数据检索模块、抽取处理模块、推送解析模块和推送自选模块,本发明涉及内容抽取技术领域。该基于人工智能的多媒体内容抽取系统,通过将得到的字幕节点的时间差分别与预设的字幕间...
周志成林锦兴罗杰华黎世民
要素内容抽取方法、装置、电子设备及存储介质
本发明提供一种要素内容抽取方法、装置、电子设备及存储介质,该方法包括:获取目标图片中各文本行的文本;分别提取各文本行的文本各自对应的第一句子级token,以及至少一个问题文本对应的第二句子级token,各问题文本包括要素...
蒋磊崔瑞莲张建树殷保才殷兵胡金水
一种基于大语言模型的文献内容抽取方法和系统
本发明提供了一种基于大语言模型的文献内容抽取方法和系统,旨在提高科研效率,降低科研文献阅读耗费的时间成本。该方法包括:将需要抽取的文献上传至系统并进行格式化处理,形成结构化的数据内容;选择需要抽取的类型,创建抽取属性集合...
闫皓哲张君兰周顺祥单利群魏淑萍
基于人工智能的文本课件的内容抽取方法及相关设备
本发明涉及人工智能,提供一种基于人工智能的文本课件的内容抽取方法及相关设备,在提取课件页面中的实体及实体的属性值后,搜索每个实体的最近邻实体,在实体与最近邻实体之间生成实体边,根据属性值计算每个实体边的边特征,从而得到实...
王异秀
会议重点内容抽取方法、系统、计算机设备和存储介质
本申请涉及一种会议重点内容抽取方法、系统、计算机设备和存储介质,其中,该会议重点内容抽取方法包括:与会人员人脸数据获取步骤,通过监控系统获取会议室内的画面数据,利用人脸检测技术检测所述画面数据中的人脸数据,得到人脸数据集...
吴康乐唐大闰
一种消息内容抽取方法、装置、计算机设备及存储介质
本申请公开一种消息内容抽取方法、装置、计算机设备及存储介质,涉及大数据技术领域。首先通过关键词提取与向量转化,将待审核消息转化为关键词向量。随后,利用预训练的领域分类模型对关键词向量进行领域分类,确定消息所属的业务领域。...
王多多

相关作者

刘艳敏
作品数:11被引量:40H指数:3
供职机构:燕山大学
研究主题:DOM 启发式规则 内容抽取 并联机构 冗余驱动
刘飚
作品数:35被引量:149H指数:7
供职机构:北京电子科技学院
研究主题:启发式规则 内容抽取 SSL DOM 文字识别
谭建龙
作品数:218被引量:335H指数:9
供职机构:中国科学院信息工程研究所
研究主题:串匹配 文本 自动机 模式串 关键词匹配
吴共庆
作品数:78被引量:211H指数:7
供职机构:合肥工业大学
研究主题:新闻网页 数据挖掘 WEB新闻 半结构化数据 抽取
张智雄
作品数:288被引量:2,211H指数:25
供职机构:中国科学院文献情报中心
研究主题:数字图书馆 知识抽取 语义 预印本 人工智能