数据挖掘–引论

数据挖掘–认识数据

数据挖掘–数据预处理

数据挖掘–数据仓库与联机分析处理

数据挖掘–挖掘频繁模式、关联和相关性:基本概念和方法

数据挖掘–分类

数据挖掘–聚类分析:基本概念和方法


数据清理

缺失值

  1. 如果数据集含有分类属性,一种简单的填补缺失值的方法为,将属于同一类的对象的该属性值的均值赋此缺失值;对于离散属性或定性属性,用众数代替均值。
  2. 更复杂的方法,可以将其转换为分类问题或数值预测问题

噪声数据

  1. 识别出噪音将其去除 — 比如孤立点的识别
  2. 利用其它非噪音数据降低噪音的影响,起到平滑(smoothing)的作用 — 分箱(binning)方法可以用于平滑噪音。例如,将年收入的缺失值填补之后,将其取值利用分箱法平滑噪音。

数据集成

冗余和相关分析

标称数据的x^2相关检验

数据挖掘–数据预处理插图

数值数据的协方差

数据挖掘–数据预处理插图(1)

数据挖掘–数据预处理插图(2)

数据归约

  • 维归约:减少所考虑的随机变量或属性的个数
  • 数量归约:用替代的、较小的数据表示形式替换原数据
  • 数据压缩:使用变换,以便得到原数据的归约或“压缩”表示

本站无任何商业行为
个人在线分享 » 数据挖掘–数据预处理
E-->