人类颤抖吧！会抬扛的机器辩手来啦 | 本周《自然》封面故事 / 开普饭

原文作者：Chris Reed

研究人员开发出了一个全自主的计算系统，该系统能与人类进行现场辩论。研究结果勾勒出一个人工智能帮助人类提出并理解复杂论点的未来。

对论辩的学术研究可以追溯到古希腊时期，研究涉及的学科从理论哲学一直延伸到计算工程。开发出能在自然人类语言中识别论点的计算机系统是人工智能（AI）领域最大的挑战之一。Slonim等人[1]在《自然》上报道了该领域的一个惊人进展：一个名为Project Debater（意为“辩手项目”）的AI系统可以与人类进行竞技辩论。除了展示该领域目前已取得的进展外，研究结果还提醒我们，如果想要开发出能在辩论中分辨、提出、反驳论点的技术，就必须要有结合了不同成分的强大工程学技术，并让每个成分处理特定的任务。

就在不到十年之前，即使是最先进的AI技术，也绝对没有办法通过分析人类的话语，摸索出有哪些用证据支持结论的方式——这个过程现在被称为论辩挖掘（argument mining）[2]。自那以后，AI技术的进步以及论辩技术工程的成熟，加上巨大的商业需求，使得该领域快速发展。目前，全球共有50多个实验室正在钻研这个问题，包括所有大型软件公司的团队。

该领域出现研究井喷的一个原因是，能在大量文本中识别其所用语言的统计学相似性的AI系统得到了直接应用，推动了多项AI应用的变革（可见参考文献3），但其本身在论辩挖掘方面并不算成功。这是因为论辩结构非常复杂和微妙，有时还很晦涩，不像句子结构那么容易识别。因此，Slonim等人决定发起一个大挑战：开发一个可以与人类进行现场辩论的全自主系统——Project Debater正是这方面的集大成者。

争论和辩论是人类智能的基本能力。在本期《自然》中，Noam Slonim和同事描述了人工智能系统——Project Debater（意为辩手项目）与人类进行竞技辩论的结果。该系统能通过扫描浏览一个存有4亿篇新闻报道的档案库，自己组织开场白和反驳论点。研究人员用一系列辩题测试了该系统，并将其与人类专业辩手和各种基线系统的表现进行了比较。虽然人类专业辩手仍然更胜一筹，但Project Debater的辩论在虚拟的人类观众这里拿到了高分。研究团队认为该结果证明了人工智能具有参与复杂人类活动的潜力。封面图片：Yijia Xie。

首先，Project Debater无疑是工程学上的巨大成就。它融合了从文本中搜集并解读论辩相关材料的技术以及句法修复技术（这能让该系统在提出论点时，对提取的句段进行重新组织；作者稍许低估了他们的句法修复技术的重要作用）。Project Debater的这些成分会与人类事先准备的信息相结合，再根据关键主题进行分类，从而就一系列话题提供知识、论点和反驳论点。这个知识库会使用“罐装”文本加以补充，这些文本是人类事先写好的句子片段，可以用来在辩论中引入和组织演讲词。

无论是作为一个AI系统还是面向整个AI领域的大挑战，Project Debater的野心都不是一般的大。和把目标定得很高的几乎所有AI研究一样，一个关键的瓶颈是如何获得足够多的数据，为设定好的挑战[4]计算出有效的解决办法。Project Debater利用一种双管齐下的方法克服了这个障碍：首先将目标缩小到100个左右的辩题；再从很大的数据集中搜寻原材料——即使用现代语言处理系统的标准来看，这些数据集也绝不算小。

在2018年和2019年的几次公开亮相中，Project Debater挑战了很多优秀的著名人类辩手（图1），并由观众对其表现进行非正式打分。在这次的辩论中，该系统基于自身的论辩技巧和已经处理过的数据集，自创了一个4分钟的演讲，从它自己的指令系统中开了一个新的辩题，并得到了人类对手的回应。该系统随后对对手的论点进行了反驳，做了第二个4分钟的演讲。对手也做了4分钟的反驳，最后以双方各做2分钟总结陈词结束。

图1 | Project Debater挑战人类辩手。Project Debater是Slonim等人[1]开发的一个AI系统，可以与人类进行辩论比赛。来源：Jason Henry/NYT/Redux/eyevine

Project Debater的最大弱点可能在于它很难模仿人类辩手的连贯性和节奏——该问题关系到其在选择、概括和设计论点方面的最高处理水平，但这种局限性非Project Debater独有。虽然经过了两千年的研究，我们对论辩结构的理解依然有限。取决于论辩研究的焦点是在语言使用、认识论（知识的哲学理论）、认知过程还是逻辑正确性，研究人员提出的对论辩和推理的连贯模型至关重要的特征可以千差万别[5]。

正因为此，决定出色论点应该包含哪些因素的模型极其多样[6]，但决定优秀辩论应该包含哪些因素的模型基本上就一种形式化的直觉（将辩论精华编纂成册的学科在这方面已经领先一步，比如法律或是某种程度上的政治科学）。所以，也就不奇怪研究人员会让人类观众来简单评价Project Debater的表现是否 “属于一次出色的表现”了。人类观众在近三分之二的辩题上都给予Project Debater正面的评价。

所有论辩技术系统都有一个终极挑战，那就是应该把论点当作受到一个思想孤立集影响的局部言语片段，还是应该把它们融入社会层面辩论的更大的tapestry框架中。在很大程度上，这是设计要解决的问题，而不是设计解决办法。通过对一个论点设置先天的边界，就能进行理论上的简化，从而大大方便计算。以识别“主要结论”为例，机器在这项定义明确的任务上的表现和人类一样可靠[7,8]。这里的问题在于人类并不精通这项任务，恰恰是因为这项任务是经过人为设计的。在公开讨论中，一段给定的言语可能在一个场景中是结论，在另一场景中就是前提了。

此外，在真实世界中，论点没有清晰的边界：辩论之外的言语不是离散的，而是连着了一张集中了交叉引用、类比、例证、泛化的网络。如何让AI来处理这样的论辩网已经有了理论[9]，并用软件得以实现——比如一个叫作DebateGraph（见go.nature.com/30g2ym4）的系统，这个互联网平台可以提供对复杂互联的思维网络进行可视化和共享的计算工具。然而，与这些实现相关的理论挑战和社会技术问题也不容小觑：设计出吸引大量观众关注这类系统的有效方法，与设计出能让他们与这些复杂论辩网互动的直接机制一样难。

Project Debater 是论辩技术开发的重要一步，也是将论点作为局部现象处理的重要一步。其所取得的成功让我们得以一窥AI系统可以如何处理人类“轻而易举”就能理解的论辩网。考虑到当前假新闻遍地，公众观点极端化，演绎推理的普遍缺乏，这种“轻而易举”或许很难让人相信其实人类在创作、处理、分享复杂论点方面亟需支持——而AI或能提供这种支持。因此，即使Project Debater攻克了一个本意是用来激励更多研究的大挑战，它同时也代表了我们更接近能帮助人类进行推理的AI了，这正如Slonim等人所说的，把目前AI技术的舒适区又向外拓展了很多。

参考文献：

1. Slonim, N. et al. Nature 591, 379–384 (2021).

2. Lawrence, J. & Reed, C. Comput. Linguist. 45, 765–818 (2020).

3. Devlin, J., Chang, M.-W., Lee, K. & Toutanova, K. Preprint at https://arxiv.org/abs/1810.04805 (2018).

4. Feigenbaum, E. A. Proc. 5th Int. Joint Conf. Artif. Intell. 1014–1029 (Morgan Kauffman, 1977).

5. van Eemeren, F. H. et al. Handbook of Argumentation Theory (Springer, 2014).

6. Hahn, U. Trends Cogn. Sci. 24, 363–374 (2020).

7. Levy, R., Yonatan, B., Hershcovich, D., Aharoni, E. & Slonim, N. Proc. COLING 2014, 25th Int. Conf. Comput. Linguist. Tech. Pap. 1489–1500 (2014).

8. Trautmann, D., Daxenberger, J., Stab, C., Schütze, H. & Gurevych, I. Proc. AAAI Conf. Artif. Intell. 34, 9048–9056 (2020).

9. Rahwan, I., Zablith, F. & Reed, C. Artif. Intell. 171, 897–921 (2007).

原文以Argument technology for debating with humans标题发表在 2021年3月17日的《自然》的新闻与观点版块上

© nature

doi: 10.1038/d41586-021-00539-5

人类颤抖吧！会抬扛的机器辩手来啦 | 本周《自然》封面故事

相关推荐