学科分类
/ 25
500 个结果
  • 简介:近几年,随着通信、网络等技术的飞速发展,在各个领域经常都会产生大量的信息数据。因此,如何使用有限存储空间进行快速准确地挖掘数据流近似的频繁项成为具有挑战的问题。本文介绍了一种新的挖掘算法——EC算法,使其空间复杂性为O(ε^-1),每个数据的平均处理时间为O(1)。

  • 标签: 数据流 频繁项 空间复杂性 平均处理时间
  • 简介:目前,随着各领域的信息量暴涨,致使数据挖掘方面既存在机遇又存在挑战,并且这种爆破式的增长导致用户数据挖掘与储存的安全隐私产生了极大的隐患。因此,对数据挖掘隐私保护成为了当前亟待解决的问题。本文主要对数据挖掘隐私保护的算法进行研究,通过扰动算法以及关联规则隐藏算法两种算法进行对数据挖掘隐私保护算法进行研究,以期使问题得到解决。

  • 标签: 数据挖掘 隐私保护 算法研究 关联规则隐藏算法
  • 简介:对Apriori算法进行优化,提出了一种Z_Apriori算法。该算法在首次产生频繁项集时。扫描数据库并通过二进制编码串记录每个项目在事务里是否出现过,在每次进行计算迭代过程中无需再对数据库进行扫描.避免了对数据库的重复扫描,在系统性能和效率上较经典的Apriori算法有一定的改善。

  • 标签: 关联规则 个性化推荐服务 频繁项集
  • 简介:设计了一种基于遗传算法的关联规则算法,该算法将遗传算法和关联规则相结合.对遗传算法的编码方法、适应度函数的构造、交叉算子和变异算子进行了分析,给出了所设计方法的具体步骤,并进行了试验.试验表明,改进后的算法的执行效率高于Apriori算法.

  • 标签: 数据挖掘 关联规则 遗传算法
  • 简介:摘要当今信息化发展速度惊人,大数据、云计算、人工智能技术应用于各行各业,给社会的发展带来了很多便利,也为我国经济的快速发展注入了新的血液。因此,根据实际情况研发出科学而有效的数据挖掘算法,对于整个信息行业来说都有不可估量的意义,在进行大规模数据信息处理的时候,在关联规则下的数据挖掘算法就体现出了它本身重要的优势。因此,本文将对关联规则下的数据挖掘算法进行详细的分析,以供参考。

  • 标签: 数据挖掘算法 关联规则 分析
  • 简介:在网络环境中文本挖掘的过程主要包括特征提取、特征选择、挖掘方法选择、结果评价和知识模块等几个部分;最新的发展方向是基于EM算法对文本进行挖掘,基于该算法的的比较挖掘模型为:首先对已知数据集任意分为几个类,然后根据各个类集和背景集对文档集的各个词进行似然,再通过求和可以得到整个数据集的似然,该过程反复进行,直到收敛,从而可以根据各类和背景集结果中的较大的概率值得出文本的共同主题和各个类的主题。

  • 标签: EM算法 文本挖掘 聚类
  • 简介:介绍了一种一般情况下的C4.5数据挖掘算法的优化方法。原来的C4.5算法在计算属性信息增益率时需要大量用到对数运算,而优化后的C4.5算法计算属性信息增益率时只需用到加减乘除运算,在实现时不用频繁调用时数函数,优化后的算法不会改变属性信息增益率的排序,不改变生成的决策树。改进后的算法能做到在不改变准确率和不增加空间复杂度的情况下,减少时间复杂度,提高了决策树生成效率。

  • 标签: 数据挖掘 算法 优化
  • 简介:以我们在现实生活当中处理数据库的经验来看,为了从数据库中使用限制性的信息抽取方法得到有用的数据和信息,我们有必要使用"特点子集选择"的方法(FeatureSubsetSelection).而这种方法需要从多个相关的属性当中进行多次的试验从而找到某种特定的子集.在这种情况下,如何能够找到快速的、准确的同时又是简便的选择算法变得越来越关键.这篇文章对由Dr.RobertHoltes提出的"One-R"算法进行了适当的改进,通过"Chi"氏独立性检验和拜亚(BayesDecisionTheory)公式推导出的新方法,在试验的基础上表明,这种新的算法在某种程度上比原来的"One-R"算法要准确.

  • 标签: 数据挖掘技术 “One-R”算法 独立性检验 贝叶斯公式 数据表
  • 简介:传统的关联规则Apriori算法在产生频繁项集的过程中,需要多次扫描事务数据库以及多次扫描频繁项集,从而造成算法性能下降.为了减少扫描事务数据库以及频繁项集的次数,在生成的候选k项集中,除了存储项集item-set以及支持度计数count之外,加入事务标识符列表Tidlist属性,在生成频繁k项集时,可以直接通过Tid-list的交集得出事务标识符列表以及项集的计数,不需要去扫描事务数据库,从而可以有效地提高算法的性能.文中提出了一种改进的关联规则挖掘模型以及关联规则挖掘算法I-Apriori算法.实验证明,I-Apriori算法相比Apriori算法的执行时间有明显改进.

  • 标签: 关联规则 频繁项集 候选集 事务数据库 计数
  • 简介:重点研究了HITS算法,并且在原有算法的基础上对其进行了改进。对搜索出的信息利用改进的HITS算法确定了权威Web页面,有效地去除了无效网页。

  • 标签: 数据的预处理 HITS算法 权威Web页面
  • 简介:随着信息技术的发展,大量的数据不断被收集和存储,对数据的挖掘规模越来越大,传统的数据挖掘已经无法解决海量数据挖掘问题。网格技术的发展,使得广域分布的海量数据的挖掘问题得到解决。文章根据现实中海量数据挖掘的需求和网格的本质,把并行关联规则挖掘算法应用于网格数据挖掘中,并建立了一个并行数据挖掘模型,验证了并行数据挖掘系统在网格环境的可行性与合理性。

  • 标签: 网格 数据挖掘 并行算法
  • 简介:弧圈球在乒乓球技术中是比较关键的技术之一,正确使用弧圈球技术能够让运动员在比赛过程中获得最佳战绩,能够充分地发挥出弧圈球的威力.在分析弧圈球技术层面以及战术方面特点的基础上,综合数据挖掘技术基本理论分析了关联规则的数学模型和算法流程;最后对某省乒乓球运动员的弧圈球技术使用情况进行了数据挖掘,剖析了使用不同弧圈球技术后的得分和失分情况,从而为教练员在训练和比赛中提出决策提供了理论依据.

  • 标签: 弧圈球 乒乓球 数据挖掘 关联规则
  • 简介:在关联规则挖掘中,通常使用支持度和置信度来衡量一条规则是否为强关联规则,但从理论和实践中分析,发现传统方法挖掘生成的规则中存在大量冗余,甚至错误。本文通过引入统计学中的相关系数ρ作为新的阈值---兴趣度,对事务数据的关联属性进行度量,实验结果表明,改进后的算法在相同条件下可以得到质量更好、意义更明确的关联规则。

  • 标签: 兴趣度 正负关联规则 挖掘算法 数据挖掘
  • 简介:为了实现电梯安全事故的预警预报,研究了电梯安全大数据的挖掘方法.以电梯安全远程监管系统数据库中的电梯状态数据、基础数据、日常维保数据、故障数据以及违章数据作为数据源构建电梯安全大数据平台,包括数据采集模块、预处理模块、数据挖掘模块和数据展示模块.着重研究了改进的K-Means聚类算法和Apriori关联算法.实验表明:两种改进算法的加速比与可扩展性更好.利用聚类算法分析了各小区、不同品牌电梯的电梯故障情况以及各维保公司的故障修复率,利用关联算法分析了各小区及不同品牌电梯的特定频发故障,对电梯安全管理具有指导意义.

  • 标签: 电梯安全 数据挖掘 HADOOP平台 K-MEANS算法 APRIORI算法
  • 简介:随着“互联网+”技术的不断发展,人们在大数据时代所产生的数据量也呈现出急速发展的趋势,面对如此复杂的、海量的数据,如何进行有用信息和数据的提取成为重要的问题,数据挖掘便成为关键,而关联规则则是数据挖掘中的重要组成部分,主要用于对数据集中项等之间联系的发现,对于从大数据中通过关联规则来进行挖掘已是最成熟且最活跃的研究方向之一。

  • 标签: 数据挖掘 关联规则 算法研究
  • 简介:摘要:互联网技术和海量数据存储技术的发展,使得人们可以收集更多的数据,数据挖掘技术的诞生为人们有效利用这些数据提供了新的方法。面对糕点连锁门店品类繁多且不断变换的商品,商家应快速地分析和运用每天产生的大量销售数据,在顾客进店时或者购买过程中及时向其推荐可能感兴趣的商品或者信息,从而提高销售效率和销售量。此外,商家也可以将数据挖掘结果所提供的特征用于新产品的开发,生产出可能受顾客欢迎的产品。本文主要分析遗传算法在数据挖掘中的应用研究。

  • 标签: 遗传算法 关联规则 适应度函数 遗传算子
  • 简介:将遗传算法应用到关联规则的挖掘,提出采用遗传算法提取关联规则的方法,并讨论遗传算法的编码方法和适应度函数的构造.最后结合一个具体的实例,给出基于遗传算法的关联规则的提取算法

  • 标签: 遗传算法 数据挖掘 适应度函数 关联规则
  • 简介:摘要:随着生活水平的不断提高,青少年的身体发育水平有了显着提高。青少年的身体机能和健康发育相对缓慢,甚至出现衰退。本文提出了一种基于大数据的新型数据挖掘算法,用于监测青少年学生的身体健康,以克服这一问题,增强青少年的身体素质和心理健康。鉴于大数据技术在促进青少年健康发展、促进个人健康权益方面具有积极的现实意义,本文将实现常用的数据挖掘算法和Hadoop/Spark大数据处理。不同平台上的算法通过比较运行时间验证了大数据平台对数据挖掘算法具有良好的计算性能。目前的工作将证明是一个完整的身体健康数据管理系统,有效地保存、处理和分析青少年的身体检查数据。

  • 标签: 大数据 计算机技术 青少年 健康监测
  • 简介:介绍了基于决策树算法的几种分类技术,重点介绍了具有很大影响的ID3算法,对几种算法进行了总结比较。

  • 标签: 数据挖掘 分类 决策树 ID3算法