学科分类
/ 25
500 个结果
  • 简介:k均值算法是一个常用的局部搜索算法,它的主要缺陷是容易陷入局部极小,并且该局部极小解与全局最优解往往有很大的偏差.本文提出一个基于K-均值的迭代局部搜索文档算法.该算法以k均值算法所得到的解作为初始解,从该初始解开始作局部搜索,在搜索过程中接受部分劣解.当解无法改进时,算法对所得到的局部极小解做适当强度的扰动后进行下一次的迭代,以跳出局部极小,从而拓展了搜索的范围.实验结果表明该算法文档数据集聚的正确性达99%以上.

  • 标签: K-均值 迭代局部搜索文档聚类算法 局部极小解 全局最优解 数据库
  • 简介:针对网络学习者及其对案例访问的模糊性提出采用模糊的方法对学习者和案例进行聚类分析。在算法中,以各学习者对案例的访问次数、时间、学习效率等刻画学习者对案例的关注程度建立模糊相似矩阵,再由平方法求出模糊等价矩阵,然后进行聚类分析。通过具体实例阐述算法的计算过程,证明算法实现的可行性和有效性。

  • 标签: WEB日志挖掘 模糊聚类 模糊集 模糊等价矩阵
  • 简介:摘要双(Biclustering)算法在数据挖掘中是一个新兴的算法,对于矩阵类型的数据,其效果很好。本文浅述了双算法的基本特点,并提出了用迭代的双算法对未知的数据进行分类,并对一组数据进行了测试,其分类表现不错。

  • 标签: 双聚类 数据挖掘 迭代 分类
  • 简介:文档在Web文本挖掘中占有重要地位.是聚类分析在文本处理领域的应用。文章介绍了基于向量空间模型的文本表示方法,分析并优化了向量空间模型中特征词条权重的评价函数,使基于距离的相似性度量更为准确。重点分析了Web文档中普遍使用的基于划分的k-means算法.对于k-means算法随机选取初始中心的缺陷.详细介绍了采用基于最大最小距离法的原则,结合抽样技术思想,来稳定初始中心的选取,改善结果。

  • 标签: 文档聚类 K-MEANS算法 向量空间模型 权重评价函数 最大最小距离
  • 简介:摘要本文分析了汽车行业基于不同思想的各类大数据算法,用户应该根据实际应用中的具体问题具体分析,选择恰当的算法算法具有非常广泛的应用,改进算法或者开发新的算法是一件非常有意义工作,相信在不久的将来,算法将随着新技术的出现和应用的需求而在汽车行业得到蓬勃的发展。

  • 标签: 汽车 大数据 聚类算法 划分
  • 简介:搜索在计算机上是多种操作的基本运算,其主要目的是从大量数据当中找出所想要的部分,而一般数据的存放,常设有键值(Key)以利搜索,例如在数据库中,要取得数据一定要配合许多键值的使用,方能有效而快速地存取。

  • 标签: 搜索方法 聚类技术 计算机 数据库 键值 存取
  • 简介: 首先比较了数据流聚类分析与传统的聚类分析方法的一些不同点,对目前最新的一些数据流研究成果进行了分析,最后对数据流发展方向进行了展望。

  • 标签: 数据流模型 聚类分析 数据流聚类
  • 简介:聚类分析在数据挖掘领域中占有重要地位,到目前为止学者们提出了许多的算法.本文提出了一种基于kNN的算法k-NearestNeighborCluster(kNNC).该算法首先找到每个数据点的k个邻居点,然后设置匹配点数n,通过使用每个点的邻居点进行匹配进而达到效果.本文通过三个实验去验证该算法,并且与k-means算法进行比较.实验结果表明,该算法具有稳定的正确率,而其最大的优点是不需要预先设定聚簇数,它可以大致的找到的簇数.

  • 标签: KNN算法 K-MEANS算法 聚类分析 微博文本聚类
  • 简介:为了改进差分进化算法的全局搜索性和收敛速度慢的特点,文章提出了一种基于单纯形局部搜索的自适应动态差分进化算法

  • 标签: 局部搜索 自适应 差分进化算法 动态
  • 简介:提出了一种基于郭涛算法算法,在WEKA平台上通过使用Iris数据集和Glass数据集对基于郭涛算法算法和K-means算法进行对比实验,验证了基于郭涛算法算法的有效性。

  • 标签: 郭涛算法 K-MEANS 聚类 遗传算法
  • 简介:摘要本文在将数值型数据标准化的基础上,将分类数据细分为二元数据和类型数据,并用相异度系数距离计算分类数据之间的距离,并且赋予二元和类型数据相应的权重,来改进k-prototypes算法,使该算法满足不同要求的混合属性数据,最后通过C#语言,在ArcEngine2010版本上实现。

  • 标签: K-prototypes算法 混合属性 类型数据 相异度系数 加权属性
  • 简介:是数据挖掘中重要组成部分,为了提高的处理效率,将并行处理技术运用于k-means和PAM算法中,对k-means与PAM算法进行了改进。实验结果表明:并行k-means算法相对串行k-means算法有更好的执行效率;且k-means算法有比PAM算法更好的并行性和可扩展性。最后,该文提出和介绍了将并行技术引入谱算法

  • 标签: 聚类算法 并行 K-MEANS PAM
  • 简介:文本技术作为处理和组织大量文本数据的一项重要技术,能够在很大程度上解决由于信息爆炸所带来的问题。Sollin算法是构建最小生成树的典型算法,与Kruskal算法和Prim算法相比,具有容易实现并行运算的特点。因此,利用基于Sollin的快速层次算法在复旦语料和搜狗语料上进行实验,结果表明基于Sollin的快速层次算法在运行效率和质量上都优于传统层次算法

  • 标签: 层次聚类 Sollin算法 运行效率 聚类质量
  • 简介:通过对一离散系统的迭代学习控制问题的讨论提出了一种新的迭代学习控制算法,证明了新算法的收敛性。该算法与目前的算法具有完全不同的形式,可通过调节参数提高算法的收敛速度。

  • 标签: 离散系统 迭代学习控制 收敛性
  • 简介:上学的时候,不管是扩充知识还是找论文资料,总要去网上找很多Word或者PDF文档来扩充自己的知识。不过,要是直接到百度或者Google上面输个关键字,回车一看,需要的资料早就湮没在浩浩荡荡的信息当中。有的网站倒是提供文献检索,不过下载是需要收费的。那有没有好用又免费的文档搜索呢?

  • 标签: PDF文档 搜索 GOOGLE WORD 文献检索 关键字
  • 简介:K-均值算法(K-means)是基于划分的算法中的典型算法,针对K-means算法初始中心存在对K依赖的缺陷,提出一种新的选取K-means算法初始中心的方法,该方法提高结果的有效性和稳定性;还提出一种极值选择法,将最大距离法和最小距离法相结合,进一步提高初始中心选择的准确性。

  • 标签: K均值 聚类分析 初始聚类中心
  • 简介:摘要:“拍照赚钱”是互联网下的一种自助式服务模式,这种基于移动互联网的自助式劳务众包平台,为企业提供了各种商业检查和信息搜集,相比传统的市场调查方式能大大节约成本,并有效地保证了调查数据真实性,缩短了调查周期,于是APP任务定价的合理性变的很重要,定价与任务不合理的完成任务就少或信息不准确,影响市场调查结果。本文通过对项目任务定价规律的研究,利用Matlab绘制了任务经纬度坐标与定价数据三维拟合图并对城市内会员分布进行聚类分析,得到任务定价规律。

  • 标签: 聚类算法 任务定价
  • 简介:关系数据的算法对于传播研究意义重大,首先运用迭代系统隐喻个体结构的变化,用输出与状态的包含距离表示关系的非对称同时也确定拥有最高结构等级序列的节点来代表簇;再将Hausdorff距离引入DBSCAN算法,使得同结构节点进行合并的加和算子和层次上卷的并算子变得可压缩。运用复杂网络研究人员的数据对算法的有效性进行了评估,分层后的人员合作网具有不同的网络结构特征;关键词在层次2网络中的传播效率高;互惠关系在知识传播中的作用最大。新的发现证明算法通过引入Hutchinson算子的可压缩测度Hausdorff距离使得网络结构对传播效果的影响得以体现,该算法的设计思路是正确的。

  • 标签: 关系的非对称性 HAUSDORFF距离 并算子 凝聚层次聚类