简介:不确定性是数据的固有属性,在实验过程中由于仪器的限制或者收集过程中的误差都会造成数据的不确定性。数据挖掘算法在处理不确定数据的相关研究尚处于初级阶段,不确定数据聚类是不确定数据研究中的典型问题,已有一些聚类算法被应用到处理不确定数据,如UK-means等。无论是UK-means还是FDBSCAN都仅仅考虑了不确定数据之间的几何距离,而没有考虑到不确定数据之间的概率分布差异。然而,概率分布特征是不确定数据的本质特征,考虑不确定数据的概率分布能够更准确度量不确定数据间的距离,从而提高聚类算法的性能,本文使用核函数度量不确定数据与类中心的距离,然后使用UK-means算法聚类不确定数据,通过大量实验验证了本文提出的距离函数优于使用欧式距离期望的UK-means方法。
简介:k均值算法是一个常用的局部搜索算法,它的主要缺陷是容易陷入局部极小,并且该局部极小解与全局最优解往往有很大的偏差.本文提出一个基于K-均值的迭代局部搜索文档聚类算法.该算法以k均值算法所得到的解作为初始解,从该初始解开始作局部搜索,在搜索过程中接受部分劣解.当解无法改进时,算法对所得到的局部极小解做适当强度的扰动后进行下一次的迭代,以跳出局部极小,从而拓展了搜索的范围.实验结果表明该算法对文档数据集聚类的正确性达99%以上.
简介:提出了一种新的多数据流聚类算法.该算法可以有效地对有相似行为但存在一定时间延迟的多数据流进行聚类.算法采用自回归模型技术度量数据流间的延迟相关,利用频谱估计来抽取数据流的特征.每一个数据流用其谱分量的和来表示,从而来计算每对数据流间的相关关系.每个谱分量用振幅、相位、衰减率、频率4个参数来描述.算法计算谱分量对之间的ε-延时相关关系,并以此为基础来得到聚类分析中数据流间距离的度量.此外,算法采用滑动窗口技术对多数据流进行聚类,实时地得出聚类结果且动态地调节聚类的个数.在人工数据集和实际数据集上的实验结果表明,所提出的算法比其他类似的算法具有更快的速度和更好的聚类效果.
简介:旅游业供给侧改革与灰色预测研究,有助于转变旅游发展理念、改革旅游经济增长方式,从而发挥旅游业对相关产业的综合拉动效应.选取广东省2004年至2015年旅游业统计数据,以广东接待过夜游客人数、旅游总收入为研究变量,利用Matlab计算GM(1,1)模型,通过误差分析、模型精度及残差检验、外推预测与修正等,结果显示"十三五"期间广东接待过夜游客人数、旅游总收入呈持续增长趋势.根据对广东旅游收入与人数灰色预测及研判,基于供给侧改革及全域旅游视域下,提出了培育旅游新业态、丰富旅游产品供给体系、促进旅游消费升级等产业转型发展、旅游品牌建设的针对性策略.
简介:对选育的11个腰果品种从产量、品质、花期和果实形态等等共16个性状应用灰色关联度分析法进行综合评估。结果表明:GA-63和FL-30的关联度大,与参考品种最为接近,综合性状表现优,具有产量高、品质优、雌花比例高、着果率和成果率高等特点;同时,FL-30还具有坚果大、果仁大的特点;GA-63也具有出仁率高、早熟等特点。GA-51的关联度小,综合性状表现最差,其余各参试品种的综合性状,由好到差的排序依次为CP-63—36、HL-2—21、HL-2—13、CP-6—15、B-1、HL-7—23、CP-5-11、HL-6—23。灰色关联度综合评估的排序结果与客观实际完全符合。