简介:以我们在现实生活当中处理数据库的经验来看,为了从数据库中使用限制性的信息抽取方法得到有用的数据和信息,我们有必要使用"特点子集选择"的方法(FeatureSubsetSelection).而这种方法需要从多个相关的属性当中进行多次的试验从而找到某种特定的子集.在这种情况下,如何能够找到快速的、准确的同时又是简便的选择算法变得越来越关键.这篇文章对由Dr.RobertHoltes提出的"One-R"算法进行了适当的改进,通过"Chi"氏独立性检验和拜亚(BayesDecisionTheory)公式推导出的新方法,在试验的基础上表明,这种新的算法在某种程度上比原来的"One-R"算法要准确.
简介:传统的关联规则Apriori算法在产生频繁项集的过程中,需要多次扫描事务数据库以及多次扫描频繁项集,从而造成算法性能下降.为了减少扫描事务数据库以及频繁项集的次数,在生成的候选k项集中,除了存储项集item-set以及支持度计数count之外,加入事务标识符列表Tidlist属性,在生成频繁k项集时,可以直接通过Tid-list的交集得出事务标识符列表以及项集的计数,不需要去扫描事务数据库,从而可以有效地提高算法的性能.文中提出了一种改进的关联规则挖掘模型以及关联规则挖掘算法I-Apriori算法.实验证明,I-Apriori算法相比Apriori算法的执行时间有明显改进.
简介:为了实现电梯安全事故的预警预报,研究了电梯安全大数据的挖掘方法.以电梯安全远程监管系统数据库中的电梯状态数据、基础数据、日常维保数据、故障数据以及违章数据作为数据源构建电梯安全大数据平台,包括数据采集模块、预处理模块、数据挖掘模块和数据展示模块.着重研究了改进的K-Means聚类算法和Apriori关联算法.实验表明:两种改进算法的加速比与可扩展性更好.利用聚类算法分析了各小区、不同品牌电梯的电梯故障情况以及各维保公司的故障修复率,利用关联算法分析了各小区及不同品牌电梯的特定频发故障,对电梯安全管理具有指导意义.
简介:摘要:随着生活水平的不断提高,青少年的身体发育水平有了显着提高。青少年的身体机能和健康发育相对缓慢,甚至出现衰退。本文提出了一种基于大数据的新型数据挖掘算法,用于监测青少年学生的身体健康,以克服这一问题,增强青少年的身体素质和心理健康。鉴于大数据技术在促进青少年健康发展、促进个人健康权益方面具有积极的现实意义,本文将实现常用的数据挖掘算法和Hadoop/Spark大数据处理。不同平台上的算法通过比较运行时间验证了大数据平台对数据挖掘算法具有良好的计算性能。目前的工作将证明是一个完整的身体健康数据管理系统,有效地保存、处理和分析青少年的身体检查数据。