身高2m体重2kg这样的数据“看上去很好”?

yht68267max 14 0 PDF 2021-01-31 02:01:37

导读:数据挖掘算法通常用于为其他目的收集的数据,或者在收集时未明确其目的。因此,数据挖掘常常不能“在数据源头控制质量”。相比之下,统计学的实验设计或调查中,其数据质量往往都达到了一定的要求。由于无法避免数据质量问题,因此数据挖掘着眼于两个方面: (1)数据质量问题的检测和纠正; (2)使用可以容忍低质量数据的算法。第一步的检测和纠正,通常称作数据清理(data cleaning)。 本文讨论数据质量。尽管也讨论某些与应用有关的问题,但是关注的焦点是测量和数据收集问题。 作者:陈封能(Pang-Ning Tan)、迈克尔·斯坦巴赫(Michael Steinbach)等 如需转载请联系大数据(I

用户评论
请输入评论内容
评分:
暂无评论