搜索到153篇“ WEB信息采集“的相关文章
分布式JS解析在Web信息采集系统中的应用
2020年
本文为了能够突破原本网页信息采集系统无法实现脚本解析的动态化信息采集技术弊端,提出在Web信息采集系统中运用分布式JS解析技术。首先概述JS解析脚本语言常用引擎技术,并实现JS解析结合Hadoop分布式计算,提取解析系统的实际运行所处异构集群环境,基于原本Nutch系统文件的存储结构基础之上,设计整体系统文件数据结构及存储格式。发现设计的该分布式JS解析应用于Web信息采集系统思路,能够动态化、高效且准确的实现Web信息采集,为该领域提出出信息采集技术新思路。
梁元
关键词:WEB信息采集
基于OutbackCDX的增量式Web信息采集研究被引量:3
2020年
当前开源网络爬虫存在不能实现增量信息采集的问题。通过调研IIPC合作的第一次世界大战、Twittervane、Memento三个网络信息存档项目,发现目前各类型存档项目存在增量采集困难的情况。在分析OutbackCDX和UKWA-Heritrix系统基础上,提出了一种基于OutbackCDX和UKWA-Heritrix增量采集方案,该方案能够在不需要爬虫程序重启的情况下实现定题、增量采集,并以ISO标准格式WARC(Web ARChive)为存储格式,实现不同类型系统直接的数据交换。
高婷白如江
关键词:网络信息档案保存网络爬虫
一种Web信息采集系统
本发明涉及信息采集领域,尤其涉及一种Web信息采集系统。该系统包括:用于给待采集的URL排序,并根据一定的策略向协议处理器分配URL的URL处理器;用于通过各种Web协议完成数据的采集的协议处理器;用于对镜像页面和内容中...
不公告发明人
基于MongoDB的Web信息采集系统应用研究被引量:1
2017年
在降低成本、效率加大的情况下如何处理海量数据,是目前急需解决的重要问题。文章首先分析如何将Web日志存储到MongDB中,然后将其直接内置到MapReduce,将分析结果存储为文件以供业务人员查询分析,最后对日志分析系统进行性能测试。测试结果表明:在挖掘Web日志数据的情况下,能将数据中的主要访问模式进行系统化更新,从而为网站的结构模式采集提供有效信息
孙美卫
关键词:DB日志分析
基于XML的Web信息采集系统设计与实现被引量:3
2017年
设计基于XML的Web信息采集系统,抽取出HTML页面中半结构化数据后,将清洗、解析后的数据置入My SQL数据库中。通过将类型相似页面的节点信息和字段描述配置于XML文件中,改进了网页对应独立抽取模板的方法,有效地提高了Web信息采集的效率和准确性。实验结果表明,基于XML的Web信息采集系统能够满足信息抽取的需求。
王磊
关键词:WEB信息采集抽取规则XML
一种Web信息采集系统
本发明涉及信息采集领域,尤其涉及一种Web信息采集系统。该系统包括:用于给待采集的URL排序,并根据一定的策略向协议处理器分配URL的URL处理器;用于通过各种Web协议完成数据的采集的协议处理器;用于对镜像页面和内容中...
陈崇传
一种Web 信息采集系统
本发明涉及信息采集领域,尤其涉及一种Web信息采集系统。该系统包括:用于给待采集的URL排序,并根据一定的策略向协议处理器分配URL的URL处理器;用于通过各种Web协议完成数据的采集的协议处理器;用于对镜像页面和内容中...
李东
基于智能网关的用户Web信息采集与分析系统
信息时代的到来使互联网成为个人及家庭最重要的信息来源,越来越多的用户通过各种智能终端设备接入互联网,这种信息获取和交流的方式已逐渐成为当今时代的主流。紧随而来的各种快捷便利的服务软件使各大互联网公司逐渐意识到用户信息作为...
彭寿钧
关键词:信息采集用户行为网络爬虫智能网关
web信息采集系统的需求分析
2014年
本文对web信息采集系统进行需求分析,描述了系统具有的功能,并分析了系统的功能需求和非功能需求。
杜素芳
基于NekoHTML的Web信息采集研究
2014年
当今万维网已成为一个庞大的资源库,其中包含海量的信息,同时也充斥大量垃圾信息。所以,如何有效地采集Web信息是当前研究的热点问题。通过研究Web信息采集技术和NekoHTML,介绍如何使用NekoHTML进行Web信息采集的方法。
李娟
关键词:WEB信息采集

相关作者

吴丽辉
作品数:26被引量:103H指数:5
供职机构:中国科学院
研究主题:WEB信息采集 搜索引擎 科研信息化 信息处理 个性化
张刚
作品数:42被引量:105H指数:6
供职机构:中国科学院计算技术研究所
研究主题:分布式信息检索 信息检索 聚类 WEB信息采集 包装器
王斌
作品数:134被引量:1,082H指数:18
供职机构:中国科学院计算技术研究所
研究主题:信息检索 搜索引擎 文本分类 中文信息处理 计算机应用
张凯
作品数:623被引量:1,734H指数:24
供职机构:常熟理工学院
研究主题:PM 大气颗粒物 重金属 机械手 组件
余智华
作品数:74被引量:402H指数:13
供职机构:中国科学院计算技术研究所
研究主题:大规模网络 信息采集 信息来源 网页 网络数据