IBM认知计算白皮书：通往智慧之路 / 开普饭

人工智能学家

IBM

1955年，当人工智能这个词首次被提出来时，不出所料地点燃了公众的想象力。在接下来的60年里，我们有好几次都被它的前景所吸引，担心它的潜力被滥用，但又为它的发展缓慢而沮丧。

然而，正如所有孕育得过早、超越了当前时代的先进科技一样，人工智能遭到了广泛的误解——被好莱坞电影错误地诠释、被媒体曲解为各种各样的角色，从人类的拯救者到毁灭者，应有尽有。但那些真正参与到业界的严肃信息科学研究和应用的人却很理解智能系统的巨大潜能。这种技术（我们相信那将是「认知智能」而非「人工智能」）的未来与大众冠以AI的名头大不一样，将涉及各种各样的、来自技术、科学和社会的挑战与机遇，面临不同的监管、政策和管理需要。

认知计算是指一种能够规模化学习、有目的推理、并与人类自然交互的系统。它们不需要事先精确地编程，而是从它们与我们之间的交互和与环境之间的互动中学习和推理。过去半个世纪中，多个科学领域的发展使这些事情变得可能，它们与那些运行着它们的信息系统有着重要的区别。

那些信息系统是决定论的，而认知系统是概率性的。认知系统不仅能回答大量的问题，还能对更加复杂（且有意义）的数据提出假说、推理论述和建议。

此外，认知系统还能理解计算机科学家称之为「非结构化」的数据，而这些数据占到了全世界数据的80%。这使得它们能够跟上现代世界巨量、复杂和不可预测的信息。

这些与机器的感觉能力和自主性都没有任何关系。相反，它能够增强人类的能力，让我们可以理解和运作社会中复杂的系统。这种增强智能对提升我们驾驭科技的能力是十分必要的一步，让我们能追寻更多知识、提升我们的能力和改善人类的境况。这就是为什么它不仅是一种新科技，还是科技、商业和社会新纪元——认知时代的黎明。

认知计算的成功并不以图灵测试或模拟人类的能力作为判断标准。它的标准更加实际，例如投资报酬率、新的市场机会、治疗疾病和拯救生命。

在IBM，为建立认知计算的基础，我们已经工作了数十年，将前沿计算机科学领域的十几个学科与这个100多年的商业专家结合起来。现在，我们正在亲眼目睹它在改变商业、政府和社会方面的巨大潜力。

我们已经看到，它将大数据从障碍变成机会，帮助儿科医生做出早期诊断，为建设智慧城市提供创新解决方案。我们相信，这些技术展现了最好的（或许也是唯一的）机会，去处理地球面临的一些最持久的系统性问题，例如癌症、气候变化和复杂多变的全球经济形势。

计算的历史与认知的崛起

为了理解认知计算的未来，必须把它放到历史的语境中。

到今天为止，我们经历过两个不同的计算时代——制表时代和编程时代。IBM在这两个时代中都扮演了重要的角色。我们相信，在计算演化史中，认知计算是第三个、也是最具有转折意义的时代。

制表时代 (1900-1940年代)

计算机起源于一种单一计数用途的机械系统，这种系统用打孔卡来输入和存储数据，最终决定这个机器要做的事情 (虽然是以一种非常原始的方式)。这些制表机本质上是一种计算器，支持了商业和社会规模的扩大，帮助我们组织、理解以及管理从人口增长到全球经济进步等的各种事情。

编程时代 (1950年代-现在)

在二战的时候，随着军事和科学的需要，从机械制表机到电子系统的演变开始了。在战争之后，数码「计算机」经历了快速演化，逐渐进入商业和政府。它们可以根据软件中的程序来进行如果/就的操作以及循环。从最开始的电子管到晶体管，再到微处理器，计算机的性能得到了迅速提升，这一发展过程验证了「摩尔定律」，在60年间，每18个月处理器的容量和速度就提升一倍。所有我们知道的计算设备，从大型主机到个人电脑，再到智能手机和平板，都是可编程的计算机。

认知时代 (2011-)

早在1960年，J.C.R. Licklider就在他的论文「人-机共生」中提出了超越可编程系统的潜在可能性。现代计算的很大部分都是基于LickLider的研究以及他的深刻见解：

「人-机共生」是在人类与电子计算机之间发生的共生关系，是人机关系间可以预见的发展。这种关系包含人类与电子伙伴强耦合关系。主要目的是：

像为解决规划难题提供便利一样，也让计算机为规划思维提供便利。

在不依赖于不灵活的预定义程序的情况下，让人与计算机能够协作决策，控制复杂情况。

初步分析表明，与人类单独进行智能操作相比，共生关系将会更有效。

——J.C.R. Licklider，「人机共生」，1960年3月

Licklider知道，认知计算将是程序化计算的必要的自然演化，虽然他并不知道这个目标如何实现。50年后，大规模并行计算以及浩如烟海的结构化与非结构化数据的积累，为认知计算奠定了基础。

世界首个认知系统

在2011年2月，Watson项目首次公开，Watson是IBM开发的认知计算系统，它在Jeopardy!节目中战胜了肯·詹宁斯和布拉德·鲁特尔。这是首次面向公众证实认知计算，标志着所谓AI寒冬的终结。可编程系统在之前60年的演化中并未能够理解混乱的非结构化数据，因此也参加不了Jeopardy!节目。Watson能够回答微妙、复杂、语义双关问题，显然，计算新纪元即将开启。

节目之后，Watson继续处理了更多的复杂数据集，在解谜之外，它发展出了理解、推理以及学习的能力。认知计算的目标就是照亮以往在我们世界中不为人知的部分——具体来说就是潜藏在非结构化数据中的模式和洞察——使得我们能够对更重要的事情做出更明智的决策。认知时代的真正潜力将会是机器的数据分析、统计推断能力，以及人类特殊能力，比如自我引导的目标、常识和价值观。

这正是Watson被赋予的使命，也是它正在尝试做的事情。银行正在分析客户要求和金融数据，帮助自己更好地做出投资决策。高度监管产业中的企业不断在系统中查询，保证自己跟上经常变化的监管和合规标准。肿瘤学家利用专家经验和研究手段，测试认知系统能否帮助他们理解癌症患者医疗信息，找到个体化、循证的治疗方案。

这样的经历对于牵涉其中的专业人士来说意味着什么？世界知名的肿瘤学家，纪念斯隆-凯特琳癌症中心的Larry Norton博士正与Watson合作帮助内科医生对患者进行个性化癌症治疗。他说：「计算机科学发展迅猛，医疗事业也会受其影响。这被称为协同进化（coevolution）。我们要互帮互助。我预想这样的场景：病人、电脑、我的护士、我的研究生同事还有我自己都在监察室一起交流。」

在Watson的象棋博弈前辈Deep Blue在1997年击败世界象棋冠军Garry Kasparov之后，我们首次看到这种共生的迹象。在那次演示之后，Kasparov继续参加这种新「自由式」的象棋联赛，在其中，选手们可以自由地使用任何他们喜欢的计算机程序。在这些联赛中，一些选手孤身奋战。一些完全依赖于计算机程序。但那些将计算机与他们自身的直觉和比赛天赋相结合的选手是最成功的。

「机器与人相配合的团队甚至比最强大的计算机更具优势。人类策略上的指导与计算机战术上的敏锐结合起来是所向披靡的。我们可以集中精力于策略规划而不是把那么多时间花费在计算上。在这些情况下，人类的创造力是最重要的。」

——加里·卡斯帕罗夫

前行的技术之路与何以可能的科学

当Licklider为认知计算帮忙想出一种哲学方法时，他几乎无法表达出前行的技术进路。那条道路仍在被定义，不断调整。尤其是，我们敏锐地意识到数据正怎样塑造着我们的未来。Gartner预计世界的信息将增长800%在未来5年，而且80%的数据是非结构化的。包括人类语言记载下的每一件事（从教科书到诗歌），图片捕捉到每一个瞬间（CAT扫描每个家庭照片）以及声音记录下的每条信息。它是隐藏在气味、味道、文本和振动中的数据。它来自我们的活动，来自这个布满仪器的星球。

在价值日益源于信息、知识和服务的社会和全球经济中，数据代表着这个世界上最富有，最具价值，最复杂的原材料。直到现在，我们还没有方法对它进行有效开采。

可编程系统基于这样的规则：通过一系列预先设定的进程，从数据中得出结论。尽管它们强大而复杂，也是决定论的——其繁荣建立在结构化数据之上，但是无法处理定性或不可预见的输入。面对正在兴起的充满模糊和不确定性复杂新世界中的众多方面，这种死板束缚住了它们的拳脚。

认知系统是基于概率的，意味着它们被设计成去适应和理解非结构化语言的复杂性和不可预测性。他们可以「读」文本、「看」图像、「听」自然语音。它们阐释那些信息，整理它以及提供他们意思的解释，还伴有它们结论的基本原理。他们不提供最终的答案。事实上，他们并不「知道」答案。相反，它们被设计成从多个来源中去衡量信息和想法，去推理，然后提供假说以供参考。一个认知系统给每个有潜力的洞见或答案分配一个自信水平。

Watson在 Jeopardy!中犯的一个错误就是例证。在第一天的比赛将结束时，「Final Jeopardy」的类目是「美国城市」。线索是「以二战英雄命名的最大的机场；二战的战役中第二大的。」。

答案是芝加哥（O’Hare 和 Midway）。Watson猜测为多伦多。Watson困惑于这个问题有很多原因，包括它的语法结构，在伊利诺斯州有一个城市叫Toronto并且Toronto Blue Jays在美国棒球联盟中打棒球。

结果，Watson自信水平出奇得低：14%。如果这是Jeopardy!常规线索，而不是「Final Jeopardy」阶段的线索，参赛选手很可能会响铃，但是Watson不会响铃，因为答案自信水平太低。Watson知道哪些事情是它不知道的，图2中的5个问号暗示了这一点。

然而，认知系统能够从错误中学习。通过大规模机器学习，认知系统能从训练和运用中不断得以改善。

消化语料库知识，根据任何给定主题接受专家训练，认知系统可以通过一系列Q&A的方式得以训练。人与系统互动，就系统反馈的正确性做出反应将会提升机器的「知识」。

当Watson参加Jeopardy!时，它完成了一件事——以五种技术为基础的自然语言Q&A。今天，Q&A仅为Watson众多以API方式提供的功能之一。打那以后，我们已经研发出多达20多个新的API，采用了50多种不同认知技术。这也是认知计算的技术进路和当前人工智能进路的关键区别。认知计算并不是计算机科学的孤立领域。需要许多学科知识，从硬件架构，算法策略，工业流程设计到行业专长.

我们每天使用的许多产品和服务——从搜索引擎广告应用，社交媒体网站面部识别到「智能」汽车，电话和电网——正在见证人工智能的方方面面.

绝大多数人工智能产品和服务都是为了实现某种功能目的，侧重应用，专为某种特定服务而设。它们使用了一些认知计算的核心功能。一些使用了文本挖掘技术。其他的采用机器学习进行图像识别。所有的产品和服务都局限于最初打造它们的构想。

相反，认知系统有五个核心功能：

与人的接触更加深入

人们与系统的互动更加充分，这种互动是以每个人偏好的模式、形式以及质量为基础的。它们充分利用搜集到的数据创造出有关个体的精细画面——比如，地理位置数据，网页互动，交易历史，钟爱节目的模式，可穿戴设备数据和电子医疗记录——并为这幅图景添加一些很难察觉的细节：品味，情绪，情感状态，环境条件以及人际关系本质和强弱。从所有结构和非结构数据中进行推理，找出什么才是人际交流中重要的东西。通过不断学习，这些接触交流将传递出越来越大的价值，也会变得更加自然，有预见性，情感也会拿捏适中。

规模化和提高专业技能

各种工业知识和专业知识正在以任何专家不能赶上的速度迅速膨胀——杂志、新协议、新立法、新实践和崭新的领域。医疗保健中有一个明显的例子，在1950年，人们预测全世界医学知识翻一番需要50年时间；到了1980年，时间缩短为7年；2015年，不超过3年。与此同时，个人一生能产生一百万GB的健康数据，相当于3亿本书。

为了帮助组织机构跟上步伐，人们设计了认知系统，它能作为专家的伙伴以提高他们的业绩。由于这些系统掌握了专业术语——医学、销售和烹调等术语——他们能够理解和传授复杂的专业技能。缩短了由内行变为专家所需的时间。另外，由于这些系统是由领先的从业人员训练的——不论是顾客服务，肿瘤诊断，还是判例法等任何行业——系统就能让很多人获取这些领先人士的秘诀。

用认知融合产品和服务

认知技术让感受、推断和了解用户和周围世界的新一类产品和服务成为可能。持续改善和适应，增强功能以推出未曾想到的新用法，也因此成为可能。在汽车、医疗设备、器具和玩具行业，这些正在发生。物联网正在急剧拓展全球的数字产品和服务——哪里有代码和数据，哪里就有认知技术的用武之地。

认知运营成为可能

认知也能转变公司运营的方式。融合认知功能的商业运营，能将内外资源中的数据表象化为财富。它让公司重视工作流程、文本和环境，这有利于持续性学习、改善预测和提高运营效率——以当今的数据流动速度做出决策。在这样的领域，比如市值平均10亿美元的公司每周花1,000人的工作时间用于供应商管理，这就是个好消息。

提升探索发现

最终，认知商业将会拥有的最强工具是好得多的、可以照亮日益复杂又不稳定未来的「前灯」。

随着各行各业的领军人物争相在药物研发、复杂经济模型、材料科学、初创公司上放上大筹码，这样的「前灯」变得越来越重要。把认知技术运用到大数据上，领军人物能找到规律、机会和可执行的假设，仅仅通过传统研究或可编程系统，几乎不可能发现这些。

假如能像设想的那样实现认知计算，那么，底层平台必须足够宽广、足够柔性，以便在各行各业得到运用，它还必须支持跨行业运用。这需要一种全盘的研发进路，旨在打造一个强健的平台，它有许多功能可以支持来自开发者生态圈各种各样的应用。

这个平台必须涵盖机器学习、推理、自然语言处理、语音和图像识别、人机交互和对话和叙述生成等等。许多功能要求运用高性能计算，专门的硬件结构，甚至是新的计算范例这样的专业基础设施。每种技术都源自自身科技或学术领域。但是，这些技术必须和支持认知结果的硬件、软件、云平台和应用协同发展。

随着沃森的迅速演化，未来可能已初见端倪。举个例子，一种分析X光，MRIs和超声波图像的认知医学图像应用，它能处理医学期刊、书本和文章的自然语言。它利用机器学习来矫正和增强理解力。它还可以开发深度知识表征和推理，有助于形成可能的诊断结果。为此，需要专门图像处理器来支持大规模数据和人类专业知识，指导系统学习, 解读系统生成的结果。

这种新模型的威力能用到任何领域。油气公司能把地震图像数据和对成千上万的论文、报告、时事、经济数据和天气预报的分析结合到一起，为开采提供风险回报分析。或者，通过分析测试成绩、出勤率和数字学习平台上学生行为信息，学校能建立纵向的学生档案和个性化教育计划。

IBM正在与多个领先的癌症研究机构合作，加快临床识别，为患者提供个性化治疗方案。它也被认为是短期内最有前途的认知计算应用之一。该计划旨在减少医学解读DNA的时间，了解个人遗传信息，从医学文献搜集相关资料的时间从几周变为几分钟。由此产生的分析结果使医生能够针对任意患者特定的癌基因突变做出诊断。只需几分钟，Watson就能完成遗传物质和医学文献的审查过程，产生一份可视化数据的报告，并以循证医学为基础，综合患者个人独特的基因提供可行的药物方案。临床医生可以评估这些证据，以确定它的疗效是否会比标准方案更有针对性。

前沿认知科学的含义和义务

认知时代（The Cognitive Era）是应用型科学发展的下一步，它帮助人类理解自然并改善人类的生存状况。在此意义下，它是一个老故事开启新篇章。围绕人工智能的争论只是其中一个最新的例子，是相信科学进步的人和那些害怕它的人之间古老争论的延续。与媒体和流行娱乐界的争论相反，在科学领域，裁决已定。追求认知性未来已成为广泛共识，人们也普遍认识有必要承担技术责任。

「技术创造可能性和潜力，但最终，我们的未来将取决于我们做出的选择。我命在我，不在技术。」

——Erik Brynjolfsson，MIT（麻省理工学院，经济学著名教授）

具体而言，我们会继续型塑认知计算对工作和就业的影响。与所有技术一样，认知计算将改变人们的工作性质。这将有助于我们更快速、更准确地执行一些任务。许多处理过程会更便宜，更有效。某些事，它甚至会比人类做的更好。这也是自文明诞生以来一直发生的情况：新技术被发现具有更高的价值，它让我们的社会和生活得以适应和进化。所以，我们有理由相信，此时此刻的情况与以往是一致的。事实上，认知时代会为人类开启一个知识、发现、机会都以指数级速度增长的世界。我们也有充分的理由相信，人类的工作将变得越来越有趣，也更具有挑战性和价值。

同时，社会的控制和保障也一样重要。对于智能系统的担忧再一次适用于此。从汽车、药品到手机，每一项技术的转换都会涉及个人和机构的安全问题。这些问题已经刻不容缓，也将继续与认知技术发展如影随形。这些问题已经被今天激进的技术民主化（网络和云端的快速传播是背后的驱动力）以及随之而来的成本削减所点燃。

我们相信，答案不是试图限制民主化，而是要拥抱它，同时设计出融合隐私、安全和人工控制的认知系统。

为下一代人类的认知铺平道路

最后，所有的技术革命不仅是被发现的，而且是由商业和社会需求推动的。我们追求这些新的可能性并不只是因为我们有能力，而是因为我们有所求。

每一项革命性的技术，由于世界的复杂性和我们自己根深蒂固的偏见和方法，我们最初对它们的理解都是有限的。然而，所有的限制必然会被进展所突破。事实上，我们一直在为不知道付出昂贵的代价：我们不知道患者的病因出在哪里；不知道产品的消费者在哪里；不知道重要的自然资源藏在在哪里；不知道每一项的投资风险在哪里。

「行为明智的最大障碍是无知，它也是恐惧的最大来源。小小的蜡烛会发出误导性的微弱光线，投射出巨大而不详的阴影。正午阳光光线明亮，不会投下一丝阴影。是时候将这整个人与机器的难题置于耀眼的正午阳光之下了。计算机永远不会剥夺人的主动权，也不会取代人类的创造性思维。计算机会把人类从低级的重复性思考中解放出来，让人类更加充分利用理性，创造更多机会。」

——Thomas Watson Jr. （小托马斯.沃森，IBM第二代总裁）

在IBM，我们相信，世界上的许多难题终将得到解决。借助认知计算，我们会实现这一宏伟目标。

炒作「人机大战」的戏码会让我们偏离主题，这些戏码只存在于那些激动人心却很具误导性的小说里。现在的认知系统不是我们的竞争对手，将来也不会是。科学和经济学的证据都不支持这种恐惧。真正的认知系统实际是一种深化重要关系的工具——人与世界的关系。

通过它们，我们将为下一代人的认知铺平道路。我们能用崭新而有力的方式思考和推理。认知系统是真正灵感源于人类大脑的机器。同样的，这些机器也会真正激发人的大脑，提高我们的理性能力，改变我们的学习方式。在21世纪，知道所有的答案不能称得上智慧，但提出更好的问题才算真正的天才。

IBM认知计算白皮书：通往智慧之路

相关推荐