简介:摘要:最近出现的像物联网和大数据这样的尖端计算技术,导致了一个可以生成、收集和利用大规模数据的新时代。现在不仅可以更容易地获得数据量,而且还可以获得以前难以获得的信息和知识。在不同的领域,如能源、气候、经济、商业和医疗保健,由于数据采集故障、传输过程异常、机器运行中的设备故障等等原因,导致在这些领域往往存在数据部分缺失的问题。缺失的值被认为是数据分析中的主要障碍,因为它们扭曲了数据的统计特性,减少了可用性。缺失的值不仅会破坏原始数据分布的完整性和平衡性,而且还会影响相关场景的后续分析和应用,因此时间序列中缺失值的处理已经成为一个非常重要的问题,同时时间序列数据在数据挖掘和分析中具有重要的价值。
简介:摘要:本文基于伦理决策框架的相关理论,从后果论、义务论、正义论和德性论的视角分别分析了“大数据杀熟”中的商业伦理缺失问题。分析表明,“大数据杀熟”的背后,本质上其实是商业伦理的缺失,而这个现象最终损害的将是整个行业以及用户利益。本文的研究发现为扭转“大数据杀熟”困境,遏制“杀熟”乱象提供了实践建议。
简介:摘要目的数据缺失是队列研究中几乎无法避免的问题。本文旨在通过模拟研究,比较当前常见的8种缺失数据处理方法在纵向缺失数据中的填补效果,为纵向缺失数据的处理提供有价值的参考。方法模拟研究基于R语言编程实现,通过Monte Carlo方法产生纵向缺失数据,通过比较不同填补方法的平均绝对偏差、平均相对偏差和回归分析的Ⅰ类错误,评价不同填补方法对于纵向缺失数据的填补效果及对后续多因素分析的影响。结果均值填补、k近邻填补(KNN)、回归填补和随机森林的填补效果接近,且表现稳定;多重插补和热卡填充次于以上填补方法;K均值聚类和EM算法填补效果最差,表现也最不稳定。均值填补、EM算法、随机森林、KNN和回归填补可较好地控制Ⅰ类错误,多重插补、热卡填充和K均值聚类不能有效控制Ⅰ类错误。结论对于纵向缺失数据,在随机缺失机制下,均值填补、KNN、回归填补和随机森林均可作为较好的填补方法,当缺失比例不太大时,多重插补和热卡填充也表现较好,不推荐K均值聚类和EM算法。