搜索到52篇“ CURE算法“的相关文章
基于改进CURE算法的终端区航迹聚类被引量:3
2021年
针对复杂运行场景中不易有效划分交通流的问题,提出了基于改进CURE(基于代表对象的聚类)算法的终端区航迹聚类方法。首先,采取等弧长插值重采样方法处理航迹的多维特征;然后,基于航迹多维特征改进相似性计算模型;最后,使用戴维森堡丁指数(DBI)自适应选取CURE算法的最佳聚类数目,并对终端区内航迹进行聚类。某机场终端区703条离场航迹的69763个数据点实例验证表明,该方法可在复杂运行场景中获取精确的交通流分布。
纪新雨初建宇李印凤傅子涛李萌
关键词:层次聚类
基于改进CURE算法的不确定性移动用户数据聚类被引量:8
2016年
随着云计算、大数据以及移动互联网的发展,移动终端用户数据呈现出数据量大、噪声大、动态性及不确定性增强的趋势,影响了移动用户数据聚类准确率与效率。针对上述问题,提出了一种改进的层次聚类算法CURE。该算法将原有算法中抽样处理数据的方式用Map Reduce函数实现并行化处理,同时结合区间数的概念,将移动用户数据用一个区间表示,计算其区间距离来适应移动用户数据的不确定性特点,从而提高聚类效率与准确率。最后利用MIT Reality项目数据集进行仿真,仿真结果表明了该方法的有效性及可行性,为移动用户数据的进一步利用及用户的个性化推荐提供支持。
高长元王海晶王京
关键词:CURE不确定性数据REDUCE
Binary-Positive下的并行化CURE算法被引量:4
2014年
CURE算法在处理不均匀的海量数据时,针对随机抽样不具有代表性的问题,提出了一种健壮的并行化改进算法。该算法使用Binary-Positive算法得到原始数据的有效属性,并利用MapReduce并行框架对有效数据进行层次聚类,从而实现了正确率与效率的一种权衡。实验分析表明,改进后的CURE算法具有更高的执行效率,且聚类效果良好。
王民尹超王稚慧要趁红高婧
关键词:MAPREDUCE
基于MapReduce的网格化优化CURE算法的实现
2014年
针对CURE算法处理大量数据时聚类速度较慢的问题,一方面采用网格聚类方法对初始聚类对象进行网格预聚类处理,缩短初始化族聚类时间;另一方面采用MapReduce框架对算法进行并行性扩展,使其能够充分利用集群的计算和存储能力,从而加速海量数据的处理。以联合程序开发网站的数据集和MATLAB人工数据集作为测试数据集,对改进算法Grid-CURE进行实验分析。实验结果表明:方法可有效提升处理大数据的效率以及提升其抗噪声能力。
郎福通王鹏
关键词:CURE算法网格聚类MAPREDUCE分布式聚类
基于Spark平台的CURE算法并行化设计与应用
近年来,云计算的研究,相应地兴起了大数据处理平台的研究,Hadoop的诞生让人们从MPI(Message Passing Interface)转向了MapReduce计算模型的研究。Spark平台通过引入RDD(Resi...
邱荣财
关键词:聚类算法并行化SPARKCURE用户行为分析
基于改进CURE算法的微博热点话题发现被引量:12
2013年
由于微博平台的信息量大,为对博文热点进行准确识别,本文提出了一种基于经典CURE聚类算法的改进算法来发现微博热点话题。本文选取了20391条中文微博作为样本数据集,通过将博文稀疏矩阵化达到将高维数据降维的效果,很大程度上提高了计算的精度和速度。从选取CURE层次聚类的代表点出发,将代表点转换为博文种子集,同时调节收缩因子,加大排除博文的异常点,利用CURE层次聚类算法的思想设计了改进的CURE算法来发现微博热点话题,通过实验发现改进CURE层次聚类算法能够将数据集中的74.65%作为孤立点,更好的提高了算法的精度,同时准确地抓住长尾效应的"头部",能够更加直观的发现微博热点话题。
杨长春周猛叶施仁徐小松
关键词:层次聚类算法
基于CURE算法的电子装备时变误差分析
2012年
针对当前靶场试验中现有试验数据误差处理方法的不足,对电子装备试验过程中存在的时变误差进行了分析,提出了时变稳定度、时变一致性和精度—时间概率3项考核电子装备时变误差的指标。采用一种基于CURE算法的电子装备时变误差分析处理方法,对两型激光测距设备的误差精度进行了对比分析。试验结果表明对于某些存在时变误差的电子装备,上述算法具有良好的区分度,证明了该方法的有效性。
刘明辉周磊谢婷婷霍烁烁
关键词:聚类分析CURE算法
基于CURE算法的网页分块及正文块提取研究被引量:1
2012年
研究基于CURE聚类的Web页面分块方法及正文块的提取规则。对页面DOM树增加节点属性,使其转换成为带有信息节点偏移量的扩展DOM树。利用CURE算法进行信息节点聚类,各个结果簇即代表页面的不同块。最后提取了正文块的三个主要特征,构造信息块权值公式,利用该公式识别正文块。
王超徐杰锋
关键词:WEB信息抽取聚类算法页面分块
基于CURE算法的网络用户行为分析被引量:7
2011年
从安全的角度分析网络用户行为,建立了一个基于Netflow统计的用户行为向量数据模型,提出了一个网络用户行为的分析框架,建立了一个分析流程。针对存储网络用户行为的大型数据库选用了一个合适的聚类算法CURE算法,并对CURE算法进行了基于实际应用的改进。实验结果表明,改进后的CURE算法不仅能很好地聚类,而且能区分出正常行为和异常行为,通过危害行为评价体系分析,聚类得到的异常行为是危害行为的检测率非常高。对于实时网络上的增量数据,文中也给出了增量挖掘的算法,符合网络实时分析的需要。
孙燕花李杰李建
关键词:网络安全数据挖掘CURE算法
基于CURE算法的相似重复记录检测被引量:14
2009年
CURE算法进行改进,将其应用到相似重复记录的检测。提出预抽样的概念,可以有效地确定记录集中相似重复记录的分布情况,提高随机抽样的准确性。改进代表点选择方法,提出基于距离影响因子的代表点选取策略,既可以根据数据集的密度进行代表点的选取,又能适当选取有一定意义的边缘点作为代表点,提高代表点选取的合理性。理论分析和实验表明,该方法在保证执行效率的情况下有很高的准确性。
时念云张金明褚希
关键词:相似重复记录抽样算法代表点

相关作者

王江晴
作品数:165被引量:479H指数:10
供职机构:中南民族大学
研究主题:存储介质 女书 可逆数据隐藏 车辆路径问题 彩色图像
孙吉红
作品数:42被引量:188H指数:7
供职机构:武汉大学
研究主题:跨语言信息检索 火箭炮 信息检索 向量空间模型 跨语言
伍恒
作品数:1被引量:14H指数:1
供职机构:武汉科技大学计算机科学与技术学院
研究主题:层次聚类 CURE算法 信息熵 代表点
杨连贺
作品数:76被引量:174H指数:7
供职机构:天津工业大学
研究主题:复合材料 三维机织复合材料 数据挖掘 CAD 刚度
叶施仁
作品数:58被引量:384H指数:12
供职机构:常州大学
研究主题:数据挖掘 人工智能 数据库 情感分析 网络