搜索到222篇“ 网页自动分类“的相关文章
- 一种基于爬虫的网页自动分类方法
- 本发明公开了一种基于爬虫的网页自动分类方法,涉及数据分析领域,具体包括:首先,针对待分类的网页,利用定制爬虫获取内容信息并分出关键词。然后,逐个选取各关键词,依次比对是否属于互联网关键词类别库,如果是,得到该网页所属的类...
- 张良刘岳王一宇窦禹杨秉杰
- 基于贝叶斯的分布式网页自动分类算法研究及应用
- 伴随着移动互联网的快速发展,以及数据采集技术和数据存储技术的快速进步,使得各组织机构可以积累海量数据。而从中提取有用的信息已经成为巨大的挑战。为了应对挑战,数据挖掘技术和Hadoop云计算技术应运而生。本文研究的网页自动...
- 徐林彬
- 关键词:数据挖掘自动分类算法贝叶斯理论
- 基于Nutch的网页自动分类与推荐的研究
- 网页分类技术和推荐系统是目前解决信息负载的两种有效手段。网页分类技术目前主要是应用于门户网站,例如新浪、搜狐、58同城等等,推荐系统目前主要的应用场所是电商网站。二者对于信息的快速定位都具有各自的优势,网页分类技术可以给...
- 张晨光
- 关键词:网页分类推荐系统主题爬虫用户兴趣模型
- 一种基于网络热词识别的网页自动分类方法
- 本发明涉及一种基于网络热词识别的网页自动分类方法,主要包括:利用定制爬虫获取网页内容信息;通过互联网关键词库以及互联网停用词库对获取的网页内容进行自动分词。根据关键词出现的频率和时间远近程度去计算其热度值,之后依照该词的...
- 邵伟昂卫武黄汇
- 一种网页自动分类方法及装置
- 本发明提供一种网页自动分类方法及装置,通过先采集并处理每个技术类别下的大量训练网页,获得信息技术型网页的分类特征词列表集合以及分类特征词先验概率库,进一步筛选出给定网页中涉及的分类特征词列表集合中的特征词以形成给定网页特...
- 陈运文 宋海涛 马飞涛
- 网页自动分类算法的设计与实现
- 在这个信息数字多元化的年代,人们可以通过Internet、企业内部网和电子图书馆等多种渠道获取丰富的包括数据、文字、声音、图像等信息。我们想简单化、快捷化、有效率的获取有用的讯息有一定难度。因此,自动分类尤其是网页自动分...
- 刘松显
- 关键词:网页自动分类文本自动分类
- 一种基于贝叶斯网络的网页自动分类方法
- 本发明公开了一种基于贝叶斯网络的网页自动分类方法,属于数据挖掘领域,包括下列步骤:网页信息抽取,抽取网页上的有价值的信息;信息预处理,根据不同的信息采取不同的信息预处理方式,获得融合模型可以处理的信息格式;信息的初分类,...
- 张晓丹乔晓东朱礼军
- 基于频率共现熵的跨语言网页自动分类研究被引量:3
- 2011年
- 研究了基于频率共现熵的跨语言网页自动分类问题,使用翻译软件将所有中文网页翻译为英文,计算中文和英文网页的共现特征频率共现熵值,确定中文和英文网页的共现知识,并与英文网页相结合训练中文分类模型.实验结果表明,该方法与贝叶斯分类模型、向量空间分类模型和信息瓶颈模型相比体现出良好的性能.
- 柯丽王明文何世柱黎佳罗远胜
- 关键词:跨语言网页分类贝叶斯分类
- 网页自动分类的建模与仿真研究被引量:3
- 2011年
- 研究网页自动分类是为快速找到用户所需网页。由于网络中网页数量相当大,而且网络是一种半结构化、海量、高维等文本,传统文本分类方法无法进行降维和消除冗余信息,易出现维数灾问题,网页分类准确率低,用户很难找到自己所需网页。为了提高网页分类准确率,提出基于主成分支持向量机的网页自动分类方法。首先对网页数据进行预处理,提取网页特征向量向量,消除冗余信息,然后采用主成分分析对网页特征向量进行降维处理,然后采用支持向量机对网页进行自动分类。对网页数据集进行仿真,结果表明,网页分类准确率达95%以上,网页分类速度较加,说明主成分支持向量机是一种有效的网页分类方法。
- 周序生李爽
- 关键词:网页分类主成分分析支持向量机数据挖掘
- 基于频繁共现熵的跨语言网页自动分类研究
- 网页自动分类可有效的提高互联网信息的组织与应用,在建立网页自动分类模型时,需要大量的可信的已标注数据集。相对中文网页来说网页数量增长迅速,已标注数据集缺乏,然而数据集标注又是项费时费力的工作,相对英文网页而言,有较多的已...
- 柯丽
- 关键词:跨语言网页自动分类贝叶斯分类
相关作者
- 梁冰

- 作品数:58被引量:172H指数:7
- 供职机构:中国科学技术信息研究所
- 研究主题:NSTL 大数据 NSTL网络服务系统 数字图书馆 词表
- 汤琛

- 作品数:36被引量:19H指数:2
- 供职机构:长沙理工大学
- 研究主题:速查盘 公元 星期 万年历 生肖
- 冯是聪

- 作品数:9被引量:226H指数:5
- 供职机构:北京大学
- 研究主题:中文网页分类 WEB挖掘 特征选取 评测 搜索引擎
- 柯丽

- 作品数:3被引量:3H指数:1
- 供职机构:江西师范大学计算机信息工程学院
- 研究主题:贝叶斯分类 共现 跨语言 网页自动分类 网页分类
- 张晓丹

- 作品数:21被引量:100H指数:6
- 供职机构:中国科学技术信息研究所
- 研究主题:大数据 音频信息 特征降维 神经网络 降维