最近在看《大数据时代》这本书,看了一半-AI人工智能-
最近在看《大数据时代》这本书,看了一半,书中有三个概念让我印象深刻。
1.使用全部的数据,而不是抽查样本。
大数据并非数据量大,而是使用能收集到的所有相关数据进行研究。早期数字化和数据化困难,收集数据的成本很高,因此才有许多抽样方法,而现在有了足够的收集、存储、处理能力,已经不需要再屈就于样本了。全量研究能展示更多的信息和细节。
2.重视相关性,而不是因果性。
大数据时代计算方式复杂,难以寻找确定的因果性。计算机一般只能告诉你两者相关,有多大的概率相关。但实际我们以前以为的因果性,不少也只是相关而已。
不过放弃了因果性的追求,是否放弃了人类在计算机世界的主导地位?
3.容忍错误和缺失。
现实世界中的数据,因为各种原因会有大量错误和缺失,这是不可避免的。我们不应该“嫌弃”错误和缺失,有时它们甚至也会展示更多细节。
赞 (0)