数据思维是现代人的基本素养之一
01.导论:数据思维的三个常见误解:
数据思维就是使用数据来提出问题和解决问题的能力
数据思维的强弱,不基于先天的数字感,也不基于你掌握多少数据技能和数据知识,而是基于你对数据技能和数据知识的认知
数据知识和数据技能看起来是客观的,但对它们的理解、认知却因人而异。这就是每个人的数据思维水平相差很大的重要原因。
感知数据
02.转型:如何培养数据敏感度?
量转型:把过去用定性的方式思考、谈论和使用一个东西的习惯,有意识地转变为用定量的方式思考、谈论和使用,如夸小姐姐颜值高,而不只说漂亮
量定义:如果一个事物的性质是用某一方面的量来定义的,就搞清楚它具体是怎么定义的,如我们把老年人口占全体人口的比例看成是测量一个社会“生理上”老化程度的指标
对应值:在量定义的基础上,为事物确定一个明确的量的标准,如使用老年人口占全体人口的比例来测量,那么,这个比例要达到多少才是一个老龄社会呢?
03.背景:为什么孤立的数据没有意义?
背景不同,数据代表的意义就不同。只有确定了数据的背景,才能准确理解数据的意义。
掌握数据的背景可以帮助我们理解什么信息:
理解事物的属性【是什么】:如体脂率,指脂肪重量在总体重中所占的比例,反映了人体内脂肪含量的多少
理解事物的相对情况:如果你的体脂率是 21%,这是正常还是不正常呢?首先要看性别和年龄,知道成年人的体脂率正常范围
理解当事人的意图
04.推理:怎么发现数据隐藏的信息
单一的一个数据包含的信息也不是那么少,我们需要把隐含的信息挖掘出来。教你三个方法
数学推断。先利用数学知识做出假设,然后进行推断
逻辑推理。从各个领域的规则和限制条件出发,进行合理化推测。
切换视角。在不同的视角、关系下观察数据,数据就会发出不同的隐含信息。
05.差异:为什么同样的数据感受不一样
如果从人这一端来看,人的生物性和人与人之间的差异会导致我们在面对同样的数据时,产生不同的感觉、解释和观点。
人与人的差异主要包含三个方面
生理倾向差异
文化属性差异
价值立场差异
由于人自身的差异而导致对数据感知的差异,既是正常的,也是要警惕的。一定不要把自己的特点当成全人类的特点,大家对数据的感知可能真的不太一样。
06.估算:为什么要敢于不精确?
对数据精度的过分迷恋是一件要警惕的事情。根据目标确定需要什么精度的数据,才是好的数据思维
估算能让我们在知道很少信息的情况下得出相对靠谱的数据。估算时要做到两点——敢于不精确,但不能太离谱(同一量级上)
两个估算技巧:“二八法则”和“1%法则(你进行决策分析的花费应该约为决策价值的 1%)
07.映射:数据究竟是什么?
数据是对现实世界实体的映射,是在某种方法之下对实体的数字化表达。
数据需要元数据来说明、描写和记录它的关键特征,元数据就是对某个对象做出的陈述(斯诺登爆料美国“棱镜计划”在收集通话的元数据,就是说明通话在何时、何地、通了多少时间那些记录,一旦我收集到了你去过的 4 个地方和 4 个时间,我就能知道你的手机号码)
不要把数据容器和数据本身混淆,也不要以为数据自动蕴含信息。数据中蕴含什么信息,需要有数据思维的人专门处理。葡萄酒模型——葡萄酒可以分成四件事:①酒本身【数据】;②酒瓶【数据容器】;③酒瓶上的标签【元数据】;④喝进去的感觉【数据中蕴含的信息】
收集数据
08.类型:为什么要对数据区别对待?
数据、变量和表格是三个不同层次的概念:
数据是一个变量的具体值:如39
变量代表一个维度的信息:如年龄
表格是各种维度信息的集合
数据一共有四种类型:
类别数据:完整而排他的类别,如性别男女
次序数据:如非常重要,重要,一般,不重要
间隔数据:数据间隔相同,如智商
比例数据:间隔是确定的,且之间的意义都相同,如收入
了解数据类型的作用:
向下兼容的本质是说,从类别数据、次序数据到间隔数据、比例数据,越往后数据拥有的信息越多
数据类型不同,处理数据的方法就不同
每一种类型的数据都有它的用处,这里没有鄙视链
09.测量:如果定量地把握一个事物
测量的目标就是为了得到一组指标。这样一来,我们就可以用这组指标描述一个事物了,如需要确切地知道一个国家的营商环境如何。
为了全面把握一个事物,测量时可以用维度拆分的方法,具体要遵循两个原则:
边际效应最大化原则(拆分不多不少)
可靠性原则(保证每次测量都能得到稳定的结果)
如营商环境是指市场主体在准入、生产经营、退出等过程中,涉及的政务环境、市场环境、法治环境、人文环境等有关外部因素和条件的总和。
为了保证测量的就是我们想测量的,我们需要用各种方法进行确认:
关联性——如对联的水平与国学水平有关
结构性——很多变量在理论上是有联系的,如果有证据证明了这种联系,我们就可以说自己的测量是有效的。
完备性——测量的内容是不是全面包含了要认知的对象。比如测量数学能力,但是出的都是代数方面的题目,没有几何方面的,就很难说服大家这个测量全面考察了数学能力
10.抽样:怎么确保样本能推断总体
只有概率样本才能确保全面反映总体的情况。概率样本就是每一个样本都要按照事先确定的概率规则选取
现实工作中,非概率样本也可以帮我们应对一些复杂的、概率样本难以覆盖的情况,如想了解同性恋人群的情况
抽样调查的结果是一个有限制条件的范围,而不是一个单一的数值。不要把抽样结果直接用在总体上。如在95%的置信度之下,中国人的女性比例在 46.8%到 51.2%之间
11.问卷:为什么说含金量最高的是操作化?
问卷的核心是提问,而不是问题出现在哪种媒介和哪个场景中
问卷就是概念操作化的工具,问卷的含金量就在于概念操作化的水平,就起用一整套问题,从各个角度逼近你的主观感受。考试也是一样
设计问卷时,问题必须让答题者准确理解(概念清晰),而且要注意提问方式,问卷设计是一个技术活,千万不要小看。你能得到什么就取决于你怎么问。
反过来,当你引用别人的数据的时候,知道别人的数据是怎么来的,就变得非常重要。只有操作化才能打败操作化
12.实验:怎么定量地确定因果关系?
实验法是通过操纵自变量、控制无关变量、观测因变量这样的逻辑,既找到了因果性,也能知道原因的效果大小(有对照组的随机双盲实验)
实验法特别适合范围有限、界定明确的概念和假设。因此,实验法最大的问题就在于结论的外推,一不小心就会把结论的适用范围错误地扩大
走出实验室做实验,让实验控制与真实的社会生活接近,会让实验的结论更可靠。
13.大数据:到底有什么不一样?
大数据带来了新的思维方式和利用方式,不仅冲击了传统的数据收集方式,也极大地拓展了我们的能力,我们必须与时俱进
大数据拥有海量性、持续性和不反应性(被监控对象不察觉)等优势,但使用时也有很多要避开的坑:
大数据里的数据,绝大部分都不是为了我们的目的收集的,而是在例行的业务活动中自动产生的,如果想利用这些数据,就必须理解这些数据是怎么产生的,搞清楚这些数据的精确含义
不要低估数据清洗的重要性、难度和成本
使用大数据时,要理解大数据的代表性问题。以为大数据数据量大,它的代表性就好。但是,放在历史长河里,不管大数据多大,它都只是一个样本(如电话拜访预测总统竞选结果)
做样本内比较或者分析个体的行为,大数据很擅长。但是把结论推及总体,大数据经常不能支持这个任务。善于把大数据和小数据相结合,才是我们利用数据的最高境界。
理解数据
14.表征:如何确定你到底是谁
在使用数据寻求表征之前,必须完成两件事:第一,识别真正的挑战是什么,明确我们到底想定性什么;第二,不断反思自己对这件事的认知
在面对复杂问题时,我们需要随着信息的增加而不断调整表征方向
当没有现成的数据能表征我们想要的东西时,可以自己构造新指标。虽然有风险,但值得尝试。
15.分类:谁是他?谁是我?
分类就是按照量的标准把一个总体分成几组,必须保证组内差异小,组间差异大
分类的结果一定是概率性的,有出错的可能
当没有标准答案,仅仅能通过分析数据来分类时,最重要的就是建立数据与现实世界的连接。只有这样,才能确保我们的发现是合情合理的
16.分解:究竟谁对你影响最大?
所谓的分解,就是把影响一个复杂事物的各种复杂纠缠的因素分开。通过分解,可以浓缩信息,探究本质
要建立分解的意识,不要一见到差异,就想当然地认为都源于一个单一因素,很多事情,有差异是正常的,平等不等于相等。
分解的办法有很多种,因子分解只是其中的一种。每种分解方法都有各自的优点、缺点和适用条件。如果不确定你要解决的问题应该用哪种方法,可以找数据专家咨询。
17.因果:如何缓解反事实难题?
(1)两个变量之间因果关系成立的必要条件有三个:
两个变量有相关。确定因果关系,不能只看这两件事情之间,而必须看到世界运作的全景。要是你还没有能力看到全景,那么请再一次保持谦卑,慎重下结论。
两个变量有先后
两个变量的关系不能被第三个变量解释。
先建立所研究问题整体的运行图景,说明各个变量之间的联系。然后去收集数据,让数据逼近这个理论图景。再然后,用数据验证这个理论。如果验证
通过,就对理论更相信一点。如果不通过,就改进理论或者收集新的数据,再次验证。如此循环下去。
(2)因果关系的寻找是一项重大挑战,没有保证成功的一般法则。其中,最大的困难就在于反事实难题的存在,因为数据永远不够:
我们只能对群体做因果推断,不能对个体做因果推断
我们只能对因果关系做概率表述,不能做确定性的表述
随机试验不能完全解决问题,推广到总体时要很小心
(3)面对现实问题,我们能做的就是猜测、验证和迭代。如果对因果关系的追寻有一个总原则的话,那就是保持谦卑
操纵数据
18.行动:如何用数据指导决策
真正利用数据指导决策,需要做好三步:理解挑战,建立模型,量化变量
建立决策模型时要学会转换思路,从解决一个问题转换成理解一个机制。只有彻底理解了挑战背后的机制,建立的模型才是可靠的
一切事物皆可量化,而量化的实质就是降低不确定性
19.可视化:如何塑造受众的感觉
数据可视化是基于数据的,由数据驱动生成的图像,帮助受众看见并理解数据当中隐含的信息
好的数据可视化作品要兼顾高效和美观。传达信息快速有力,过程又充满愉悦感和美感
数据可视化是一个重要的探索工具,能让我们发现其他手段难以发现的新信息。
20.误导:怎样识别数据中的认知陷阱
数字不会欺骗,是人会欺骗。西方有句俗语说,Don't hate the player, hatethe game(别去恨玩家,要恨恨游戏)
误导的具体方法很多,不可能完全举例说明,建议你发现一个就记下来一个,经验多了,就会提高识别的能力和速度
遇到别人用数据得出的论断,建议先问自己五个问题:谁说的?他是如何知道的?遗漏了什么?是否有人偷换了概念?这个资料有意义吗?
21.结语:数据思维背后的三个基本信念
我认为数据思维是现代人的基本素养之一,地位与语文素养一样。理由有三个:
这个世界是量的,只有通过量才可能接近质
只有通过量的竞争,才能达成质的暂时共识
虽然定量的方法不完美,但我们只能依赖它