内容简介:
目录
三、数据集成和转换
1.数据集成
2.数据冗余性
2.1 皮尔森相关系数
2.2卡方检验
3.数据转换
四、数据的规约和变换
1.数据归约
2数据离散化
三、数据集成和转换
1.数据集成
数据集成是将不同来源的数据整合并一致地存储起来的过程。
不同来源的数据可能有不同的格式、不同的元信息和不同的表示方式等。
首先需要将它们变成一致的形式。
通常这个过程牵涉到数据架构的集成,处理属性值冲突,处理数据冗余性,对数据进行转化等的处理过程。
其中两个主要的问题:数据冗余和数据转换。
2.数据冗余性
原因:
数据冗余...
查看原文
暂无评论...