搜索到493篇“ 网页结构“的相关文章
一种适用于RPA的网页结构化抓取方法及装置
本申请公开了一种适用于RPA的网页结构化抓取方法及装置,方法包括:根据网页截图和用户需求,利用多模态大语言模型MLLM获取列表样本;针对每一个列表样本,提取所有元素字段文本,在网页HTML上匹配到包含这几个元素字段文本的...
林平吴鑫唐琦松谢涛
基于网页结构单元的组件生成方法、装置、设备及介质
本申请涉及H5网页开发技术领域,特别涉及一种基于网页结构单元的组件生成方法、装置、设备及介质。该方法包括:获取组件设计需求;基于组件设计需求,选取多个结构单元ID,基于多个结构单元ID从预设的映射表中确定多个目标结构单元...
倪盛盛
基于网页结构的限定域的康养数据智能采集技术研究与实现
2025年
随着人口老龄化的加剧,康养产业对数据的需求日益增长。康养数据的智能采集对于提升康养服务质量、优化资源配置以及实现个性化健康管理具有重要意义。本文从网页结构分析出发,结合网络爬虫技术,设计一种基于网页结构的限定域的康养数据智能采集方法,只需设置采集内容的前后标识符及相关参数,即可自动开展采集工作。该方法大大降低了对数据采集工作的技术要求,节约了数据的采集时间、成本,为康养产业的数字化转型提供了技术支持。
代亮亮杨熙鄢超徐蛟
关键词:数据采集网络爬虫PYTHON
网页结构指纹的生成方法、装置、设备及存储介质
本发明属于计算机技术领域,公开了一种网页结构指纹的生成方法、装置、设备及存储介质。该方法包括:将当前网页解析为DOM树,并获取DOM树中各节点的属性特征以及各节点形成的节点关系链;基于节点关系链计算各节点的哈希权重;根据...
杨嘉伟刘国徽宋嘉海张向征
基于强化学习的自适应网页结构变化的数据采集方法及系统
本发明涉及数据爬取技术领域,更具体的,涉及基于强化学习的自适应网页结构变化的数据采集方法及系统。本发明预先构建了两个Docker容器,其中一个安装了浏览器程序、爬虫程序、守护进程,另一个用于存放及更新Actor‑Crit...
王庆人张恒刘森林任思宇韩梦迪颜登程
网页结构优化方法、装置、设备和存储介质
本申请实施例公开了一种网页结构优化方法、装置、设备和存储介质,涉及网页处理技术领域。具体实现方案为:响应用户的网页触发行为,确定用户访问的目标网页;确定所述目标网页中元素的原始结构信息和目标结构信息;其中,所述目标结构信...
蒋庆宇
融合网页结构、角色的网页正文抽取方法
本发明公开了融合网页结构、角色的网页正文抽取方法,包括以下步骤:S1、网页结构的分析:在建立在网页页面结构的基础上,提出基于网页页面结构的分析算法;S2、围绕用户进行面向角色和权限分策略抽取:用户是网页正文提取的主体和主...
刘丽娟
融合规则与小样本的网页结构化方法、设备和存储介质
本发明涉及一种融合规则与小样本的网页结构化方法、设备和存储介质,其技术方案为:所述方法包括:对获取的原始网页文本进行预处理操作,得到有效、规范的纯文本;根据抽取需要,匹配问题关键词列表,基于文本内容来设置对应问题;编写正...
王政刘茂福李祥夏旭
改进针对网页结构理解的预训练语言模型的方法和装置
本发明公开改进针对网页结构理解的预训练语言模型的方法和装置,其中,一种改进针对网页结构理解的预训练语言模型的方法,其中,所述针对网页结构理解的预训练语言模型具有上下文编码器且不具有结构信息编码器,所述方法包括:利用所述针...
俞凯陈露赵梓涵许洪深
网页结构化信息提取方法、装置、电子设备及存储介质
本发明提供一种网页结构化信息提取方法、装置、电子设备及存储介质,其中,该方法包括:缓存移动互联网中的数据,存储为各Kafka数据;对每一Kafka数据进行http解析,获取网页中的URL和正文信息,根据预设的信元规则,提...
严雄伟

相关作者

廖浩伟
作品数:6被引量:14H指数:2
供职机构:中南大学信息科学与工程学院
研究主题:网页结构 相似度算法 相似度 物流行业 移动互联网
陈星
作品数:198被引量:159H指数:6
供职机构:福州大学
研究主题:卸载 软件体系结构 混合云 适应度函数 智能家居
贾真
作品数:65被引量:312H指数:10
供职机构:西南交通大学
研究主题:中文 命名实体识别 网络百科 百科 关系抽取
李银胜
作品数:46被引量:67H指数:5
供职机构:复旦大学
研究主题:PDM WEB服务 动态联盟 企业 数字教育
顾轶灵
作品数:7被引量:9H指数:2
供职机构:复旦大学
研究主题:结构语义 XPATH 网页结构 WEB信息抽取 语义