3个结论解读吴军新书《智能时代》【EGO图书荟】
作者介绍
杨德升,周伯通招聘CTO。历任开源 SNS 社区 ThinkSNS 核心工程师、115 网盘高级 iOS 工程师等职位,2013年6月至今,任周伯通招聘CTO,负责周伯通招聘的产品和技术团队。
作者的微信公众号:Focused(ID:stay-focused)。
作者的个人微信号:yisheng。
如果我们把资本和机械动能作为大航海时代以来全球近代化的推动力,那么数据将成为下一次技术革命和社会变革的核心动力。我们要在这样一个高度上理解大数据,以及由它带来的全球智能革命。
从《浪潮之巅》开始,吴军老师的书几乎每本都有读过,除了感叹他写书的速度已经超过很多人的读书速度外,每本书的质量还给人以智商被碾压的快感。要说吴军老师的哪本书带给我的冲击最大,我只服这本《智能时代》,尤其是配合阅读《数学之美(第二版)》效果更佳!
每一本好书都会让人进步些许,或者增强技能,或者开阔视野,或者愉悦精神,而这本《智能时代》带来的是认知方式和思维方式的崩塌,给人的是「还好读了这本书」的后怕感。
我读《智能时代》大概经历三个步骤:开篇讲大数据思维与传统机械思维的差异,让人醍醐灌顶;中篇讲技术、方法与挑战,是一个很好引导与总结;结尾讲对社会结构的冲击,让人倒吸一口凉气。
如果只选三个最让我印象深刻的结论,我会选择:
机器智能的革命:从规则到统计
思维的革命:从机械思维到大数据思维
智能革命和未来社会
这篇读书笔记尝试总结说明以上三点,详细内容强烈推荐各位读原作,有理论说明,有数学推演,绝对让你不虚此行。
从珠算时代开始,各式能够辅助计算的机器一直在进化,而真正给机器智能以科学解释的是阿兰·图灵博士。图灵于 1950 年在《思想》杂志上发表的题为《计算的机器和智能》的论文,提出一种验证机器有无智能的判别方法,即大家都熟悉的图灵测试(Turing Test)。具体说就是:让一台机器和一个人坐在幕后,让一个裁判同时与幕后的机器和人进行交流,如果这个裁判无法判断自己交流的对象是人还是机器,就说明这台机器有了和人同等的智能。
图灵(图片来自wikipedia.com)
今天计算机已经能做到花式智能,比如:语音识别、机器翻译、文本的自动摘要和写作、战胜围棋和德扑冠军、自动回答问题等等,但是人类走到这一步之前先绕了十几年的弯路。
人类在几千年前就梦想着飞行,于是就开始模仿鸟的飞行方式,将鸟的羽毛做成翅膀绑在胳膊上就从山上往下跳,然后就悲剧了。后来人们把这种方法论称作「鸟飞派」,也就是看看鸟是如何飞的,就能造出飞机,而不需要了解空气动力学。
飞鸟(图片来自dasouji.com)
人工智能研究开始的十几年就是典型「鸟飞派」的做法。为了让计算机理解人类语言,计算机科学家与语言学家开始结伴研究,普遍采用基于语法规则和语义规则的方法,即通过字典和算法对语句做语法分析、上下文语境分析,并得到语句的语法分析树。
结果如大家所见,经过十几年的研究,科学家发现人工智能的局限性明显,除了做出几个了简单的「玩具」,比如让机器人像猴子一样摘香蕉,解决不了什么实际问题。20 世纪 70 年代初,全球最好的语音识别系统的识别率只有 70% 左右,而且要求讲话者要口齿清晰,没有噪声。
20 世纪 70 年代,人类开始尝试机器智能的另一条发展道路,即采用数据驱动和超级计算的方法,即把智能问题变成数据问题。
我们都知道可以用抽样来估计整体的概率分布,那么这个方法有没有理论基础呢?19 世纪的俄国科学家切比雪夫给出了肯定的回答,他得出这样一个不等式,也称作切比雪夫不等式:
这个公式的含义是,当样本足够多时,一个随机变量(比如观察到的中国大学生的男女比例)和它的数学期望值(比如真实情况下的中国大学生男女比例)之间的误差可以无限小。
在大多数复杂的智能应用中,除了用统计数据做一些加减乘除外,还需要建立起一个数学模型才可能在实际中使用。要建立数学模型需要解决两个问题,首先是采用什么样的模型,其次是模型的参数是多少。鉴于完美的模型未必存在,即便存在,找到它也非常不容易而且很费时间,工程上常常采用多而简单的模型,只要数据样本足够多,它可以取代一个复杂的模型。这种方法被称为数据驱动的方法,因为它是先有大量的数据,而不是预设的模型,然后用很多简单的模型去契合数据。
数据驱动的方法想要成功,除了数据量足够大外,还需要一个大前提,那就是样本必须非常具有代表性。这句话出现在所有统计学的教科书里,但是在现实生活中达成这个前提是何其困难。这时,一举解决这个问题「大数据」出场了,大数据不仅仅能做到具有代表性,而且能做到数据全量!关于大数据的介绍,请参看原作,这里不赘述。
By the way,李开复就是在这样的背景下,在传统的人工智能实验室里,采用基于统计的方法开展他的博士论文的工作,并最终和洪小文一起构建了世界上第一个大词汇量、非特定人、连续语音识别系统。
就像量子物理学的思维逻辑与经典物理学的思维逻辑完全不同一样,在方法论层面,大数据时代需要也一定会出现一种全新的思维方式。
今天谈到「机械思维」,很多人脑海中的印象是死板、僵化,但是在两个世纪之前,这是一个时髦的词汇。毫不夸张的说,在过去的三个世纪里,机械思维算得上是人类总结出的最重要的思维方式。
举个青霉素的栗子,大家就明白什么是「机械思维」了。
19 世纪中期,科学家发现生物细菌会导致很多疾病,运用因果关系,人们很容易想到杀死细菌就能治好疾病。不过,后来英国医生弗莱明等人发现,把消毒剂涂抹在伤员伤口上并不管用,因此就寻找能够从人体内杀菌的物质,并最终在1928 年发现青霉素,但是他并知道青霉素的杀菌原理,也没有能力浓缩和提取其有效成分。1943 年牛津大学的科学家搞清楚了青霉素中的一种物质(青霉烷)能够破坏细菌的细胞壁,而人类和动物的细胞没有细胞壁,这就达到了其杀菌而对动物无伤害的作用。1945 年,女科学家多萝西·霍奇金搞清楚了青霉烷的分子结构(并因此获得诺贝尔奖),这样到了 1957 年人类终于可以人工合成青霉素。再之后,亚伯拉罕基于对青霉烷的分子结构的改进,发明了头孢类的新型抗生素。直到今天,制药行业的核心方法都遵循「研究病理找到真正致病的原因,然后针对这个原因找到解决方案」。
简单的说,机械思维就是「分析现象找到原因,根据原因得到结果」的思维,「知其然,知其所以然」的思维。
抽象的说,机械思维就是因果逻辑推理思维。
欧几里得最大的成就不是发现了几何定理,而是创立了公理化体系的几何学。在欧几里得的几何学中,他首先总结出 5 条简单得不能再简单、相互独立、不证自明的公设,接下来几何学的一切定理都由这 5 条公设直接或间接地演绎得出。欧几里得这种基于逻辑推理的公理化体系对西方人的整个思维方式具有极大的影响,甚至整个罗马法的演进都是建立在这个的基础上,之后牛顿又把这一科学体系扩展到自然科学领域。最终,机械思维直接带来工业大发明时代和全球化时代。
欧几里得(图片来自wikipedia.com)
与机械思维相对的这个词,书里并没有明确的给出来,想来想去我选择了「大数据思维」这个略微模糊的词汇,因为它囊括了智能时代的所有重要概念,比如强相关性、不确定性等等。
首先,就像量子物理之于经典物理的首要特征是测不准原理和因果关系的崩塌一样,我们必须承认我们这个客观世界的不确定性,今天面临的复杂情况已经不是机械时代用几个定律就能讲清楚的(至于为什么,请看书里的详细解释)。
按照香农的信息论,信息和数据是能够消除不确定性的,那么很多智能问题也就变成了数据问题,这样我们也就不难理解为什么大数据的出现能够解决智能问题了。在不确定性的世界里,如果我们依然能够找到确定性和因果关系,这自然是最好的结果。在无法确定因果关系时,数据为我们提供了解决问题的新方法,数据之间的强相关性在某种程度上可以取代原来的因果关系,帮助我们得到我们想要的答案,这便是大数据思维的核心。当然,大数据思维并非是完全取代机械思维,两者并非完全对立,前者更多是后者的补充。
香农(图片来源dajia.qq.com)
从因果关系到强相关性关系的思维转换,书中介绍了不少案例帮助理解,比如检察院如何证明烟草公司有罪当惩、警方如何高效查处毒品种植等等,这里不再赘述。
放眼历史长河,一项技术带动整个社会发生变革的事情时常发生,书中给出一个通用的模式,即:
新技术 + 原有产业 = 新产业
历史上可以套在这个公式中的技术大家都很熟悉了,包括蒸汽机、电、计算机信息技术、摩尔定律、互联网等等,而放眼未来,即将被套入这个公式的新技术则是大数据和机器智能两个词汇。依据这个公式,吴军老师展望了未来的农业、体育、制造业等行业的发展形态,其中体育业的例子尤为让人印象深刻。
在 2015 - 2016 年的 NBA 赛季,位于硅谷地区的金州勇士队创造了 NBA 历史常规赛获胜率最高的记录,在 82 场比赛中获胜 73 场(此前的记录是乔丹时代的公牛队保持),同时还创下主场 54 连胜的记录。熟悉 NBA 的朋友都知道,勇士队长期以来都是联盟的传统烂队,2009 赛季更是全联盟排名倒数第二。那是什么让它如此突飞猛进呢?
一般情况下,一个弱队的崛起主要是靠老板财大气粗,砸钱买球星和金牌教练,然后花式做广告招揽球迷,中国的恒大足球队就是这个策略。但是,金州勇士队的翻身却不是靠砸钱,而是因为它的地理位置 -- 硅谷!
图片来源 agzhibo.com
在勇士队管理层背后,有一支工程师团队利用大数据制定球队的发展战略和比赛战术,管理层坚持用数据说话,而非凭经验。根据对历年来 NBA 比赛的数据分析的结果,管理层发现 NBA 几十年来一直追求制空权的打法(比如乔丹、姚明)是低效甚至错误的,最有效的进攻是眼花缭乱的传球和准确的投篮,而不是彰显个人能力的突破和扣篮。在这个思想的指导下,勇士队甚至卖掉球队所剩无几的「低效」球星,着重培养自己看中的新人,而首先被选中的就是现在已家喻户晓的斯蒂芬·库里。跟大腕相比,各项数据都相形见绌的库里之所以被重用,是因为他有一个特长,那就是投篮精准。正式对这个策略的高效执行,让勇士队、库里、汤普森大展神威,拿下殊荣无数。除了利用数据制定球队战略,勇士队还利用实时数据及时调整比赛中的战术,甚至可以帮助球队改进精细到两个人配合的细节。
鉴于勇士队的战术和成绩带给 NBA 的巨大冲击,奥巴马在白宫专门接见了勇士队员,篮球界的人士也将勇士队称为 NBA 里的 Google。
大数据导致机器智能革命的到来,这对未来社会的影响将是全方位、全行业、立体式的。任何一次技术革命,最初受益的都是理解它、使用它、发展它的人,而远离它、拒绝它的人,在很长的时间里都将是迷茫的一代。在智能革命到来之际,作为人和企业无疑应该拥抱它,让自己成为那 2% 的受益者。
(编辑|赵新龙)