学科分类
/ 25
500 个结果
  • 简介:数据挖掘是近年来计算机科学领域非常热门的研究方向之一,是由数据仓库技术和机器学习发展而来.数据挖掘是指从海量的数据中找出隐藏的关系,是数据分析的高级阶段.在对数据挖掘算法研究中,涌现出了很多优秀的算法.本文选择了IEEE评选出的十大经典算法,对其中的每个算法的原理、背景、发展、优缺点、应用领域等做了深入浅出的介绍,为相关专业领域的学习及研究提供参考.

  • 标签: 数据挖掘 大数据 聚类 分类 预测 关联规则
  • 简介:近几年,随着通信、网络等技术的飞速发展,在各个领域经常都会产生大量的信息数据。因此,如何使用有限存储空间进行快速准确地挖掘数据流近似的频繁项成为具有挑战的问题。本文介绍了一种新的挖掘算法——EC算法,使其空间复杂性为O(ε^-1),每个数据的平均处理时间为O(1)。

  • 标签: 数据流 频繁项 空间复杂性 平均处理时间
  • 简介:定义从页面p指向页面q关于查询关键字k的超链权值为w(p,并对Web结构挖掘的一般方法HITS算法进行改进,如果存在超链从页面p指向页面q

  • 标签: 挖掘算法 算法研究 结构挖掘
  • 简介:目前,随着各领域的信息量暴涨,致使数据挖掘方面既存在机遇又存在挑战,并且这种爆破式的增长导致用户数据挖掘与储存的安全隐私产生了极大的隐患。因此,对数据挖掘隐私保护成为了当前亟待解决的问题。本文主要对数据挖掘隐私保护的算法进行研究,通过扰动算法以及关联规则隐藏算法两种算法进行对数据挖掘隐私保护算法进行研究,以期使问题得到解决。

  • 标签: 数据挖掘 隐私保护 算法研究 关联规则隐藏算法
  • 简介:在数据集中挖掘频繁模式是数据挖掘研究的关键环节之一。在过去,很多的努力都集中在独立数据的挖掘上。然而,现实世界中许多实体之间总会保持着千丝万缕的关系。如何获得这些关系的频繁模式,已逐渐成为近年来研究的一个目标,我们将它称之为频繁结构的挖掘。在数据挖掘中,一个重要的方法是关联规则挖掘。它被用来发现频繁出现在数据库事务中的项集;另一个重要的方法是序列挖掘,它的任务是去寻找一个项集的序列。这些挖掘任务都被称为频繁模式的挖掘

  • 标签: 频繁模式 项集 挖掘算法 数据挖掘 关联规则挖掘 事务
  • 简介:摘要关联规则反映了大量数据中项集之间的相互依存性和关联性。Apriori算法是关联规则挖掘中的经典算法。本文在对Apriori算法分析的基础上,针对该算法存在的缺陷,即会产生大量冗余的候选集并频繁扫描数据库,提出了改进的Apriori算法,并给予验证。实践证明,改进后的算法效率优于传统的算法

  • 标签: 数据挖掘 频繁项集 Apriori算法 关联规则
  • 简介:对Apriori算法进行优化,提出了一种Z_Apriori算法。该算法在首次产生频繁项集时。扫描数据库并通过二进制编码串记录每个项目在事务里是否出现过,在每次进行计算迭代过程中无需再对数据库进行扫描.避免了对数据库的重复扫描,在系统性能和效率上较经典的Apriori算法有一定的改善。

  • 标签: 关联规则 个性化推荐服务 频繁项集
  • 简介:设计了一种基于遗传算法的关联规则算法,该算法将遗传算法和关联规则相结合.对遗传算法的编码方法、适应度函数的构造、交叉算子和变异算子进行了分析,给出了所设计方法的具体步骤,并进行了试验.试验表明,改进后的算法的执行效率高于Apriori算法.

  • 标签: 数据挖掘 关联规则 遗传算法
  • 简介:摘要当今信息化发展速度惊人,大数据、云计算、人工智能技术应用于各行各业,给社会的发展带来了很多便利,也为我国经济的快速发展注入了新的血液。因此,根据实际情况研发出科学而有效的数据挖掘算法,对于整个信息行业来说都有不可估量的意义,在进行大规模数据信息处理的时候,在关联规则下的数据挖掘算法就体现出了它本身重要的优势。因此,本文将对关联规则下的数据挖掘算法进行详细的分析,以供参考。

  • 标签: 数据挖掘算法 关联规则 分析
  • 简介:在网络环境中文本挖掘的过程主要包括特征提取、特征选择、挖掘方法选择、结果评价和知识模块等几个部分;最新的发展方向是基于EM算法对文本进行挖掘,基于该算法的的比较挖掘模型为:首先对已知数据集任意分为几个类,然后根据各个类集和背景集对文档集的各个词进行似然,再通过求和可以得到整个数据集的似然,该过程反复进行,直到收敛,从而可以根据各类和背景集结果中的较大的概率值得出文本的共同主题和各个类的主题。

  • 标签: EM算法 文本挖掘 聚类
  • 简介:介绍了一种一般情况下的C4.5数据挖掘算法的优化方法。原来的C4.5算法在计算属性信息增益率时需要大量用到对数运算,而优化后的C4.5算法计算属性信息增益率时只需用到加减乘除运算,在实现时不用频繁调用时数函数,优化后的算法不会改变属性信息增益率的排序,不改变生成的决策树。改进后的算法能做到在不改变准确率和不增加空间复杂度的情况下,减少时间复杂度,提高了决策树生成效率。

  • 标签: 数据挖掘 算法 优化
  • 简介:随着数据库应用的不断深化,数据库的规模急剧膨胀,人们需要对这些数据进行分析,从中发现有价值的信息。但是数据库管理系统本身却没有提供有效的工具和方法来利用这些数据,因此数据挖掘成为当今研究的热点。本文即以混合遗传算法为基础对数据挖掘中的算法问题进行系统研究。

  • 标签: 数据挖掘 遗传算法 模拟退火算法 混合遗传算法
  • 简介:传统关联规则挖掘算法所讨论的只是一次事务内部的模式,但实际应用中随着时间的推移,事务之间会有某种联系或发展趋势,传统关联规则算法则无法揭示其中的规律。将在SPAM算法的基础上进行改进,加入通用时间约束,提出一个新算法——TSPAM算法。TSPAM算法采纳SPAM算法中的相关概念和方法,在SPAM算法的裁减部分和候选集的生成部分进行改进,对其加入时间约束。实验表明新算法挖掘具有时间特征的序列模式是行之有效的。

  • 标签: SPAM TSPAM 序列模式 时间约束
  • 简介:基于成员角色,提出了一种骨干网挖掘算法,对football,netscience和hep-th等网络载体进行了实验和数据分析,结果表明所得到的骨干网络能较好体现网络的骨干结构特征。同时提出了一个骨干网性能的度量指标——CP值,实验表明该指标能较好地权衡骨干网规模和中心性等度量因素。

  • 标签: 成员角色 CP值 中心性距离 骨干网
  • 简介:以我们在现实生活当中处理数据库的经验来看,为了从数据库中使用限制性的信息抽取方法得到有用的数据和信息,我们有必要使用"特点子集选择"的方法(FeatureSubsetSelection).而这种方法需要从多个相关的属性当中进行多次的试验从而找到某种特定的子集.在这种情况下,如何能够找到快速的、准确的同时又是简便的选择算法变得越来越关键.这篇文章对由Dr.RobertHoltes提出的"One-R"算法进行了适当的改进,通过"Chi"氏独立性检验和拜亚(BayesDecisionTheory)公式推导出的新方法,在试验的基础上表明,这种新的算法在某种程度上比原来的"One-R"算法要准确.

  • 标签: 数据挖掘技术 “One-R”算法 独立性检验 贝叶斯公式 数据表
  • 简介:传统的关联规则Apriori算法在产生频繁项集的过程中,需要多次扫描事务数据库以及多次扫描频繁项集,从而造成算法性能下降.为了减少扫描事务数据库以及频繁项集的次数,在生成的候选k项集中,除了存储项集item-set以及支持度计数count之外,加入事务标识符列表Tidlist属性,在生成频繁k项集时,可以直接通过Tid-list的交集得出事务标识符列表以及项集的计数,不需要去扫描事务数据库,从而可以有效地提高算法的性能.文中提出了一种改进的关联规则挖掘模型以及关联规则挖掘算法I-Apriori算法.实验证明,I-Apriori算法相比Apriori算法的执行时间有明显改进.

  • 标签: 关联规则 频繁项集 候选集 事务数据库 计数
  • 简介:  (二)Aprior算法  Apriori算法是一种挖掘布尔关联规则的频繁项集的算法,  3)把各类频繁的属性单项和频繁的图书分类单项连接成2-候选频繁项集,然后由频繁项集产生关联规则

  • 标签: 关联挖掘 实践应用 挖掘算法
  • 作者: 申世红
  • 学科:
  • 创建时间:2020-06-01
  • 机构:国网山西省电力公司晋城供电公司 山西省晋城市
  • 简介:摘要:近年来,社会 的发展迅速,我国的电力行业的发展也有了很大的改善。 中国已进入经济新常态时代,电力公司需要回归企业经营的本质。中国电力企业联合会发布的《 2015年 1-6月份电力工业运行简况》中指出,今年上半年,全国全社会用电量同比增长 1.3%,创 35年来新低。公司售电量增幅下降,电费回收难度增大,当前公司面临的经营风险和压力加大。未来,电力公司需要更进一步回归企业经营的本质,电力营销在强化市场拓展、维系大客户关系、提升自身竞争力等方面的工作将成为当前及未来的重点任务之一。因此在互联网时代,客户对服务的质量、服务的便捷性、服务的效率、信息的透明、服务的精准等均提出了更高的要求。因此本文主要从营销大数据客户服务监控这个角度出发,针对客户的所需所求所关心的要点,通过大数据进行分析,从而为客户提供精准的需求,避免资源重叠浪费。

  • 标签: 电力营销聚类分析 数据挖掘算法 研究
  • 简介:聚类分析是数据挖掘的一个重要的研究方向。本文在介绍了数据挖掘的基本概念之后,详细分析了常用的聚类算法。最后,使用weka数据挖掘软件对K—means算法进行了实践,实验结果证明了K—means算法的有效性。

  • 标签: K-均值 聚类 有效性