对话的囧境?
卷友们好,我是rumor。
人工智能对话系统一直是让我又爱又恨的存在,爱是因为一想到它的终极NB形态就令人兴奋,觉得自己在从事一门可以改变世界的技术,恨是因为现有的技术与期待相差太远,一旦框架搭起来了就陷入解case的死循环,让我怀疑我是谁我在干什么,我有生之年能看到强人工智能吗???
恰好最近看到Sebastian Ruder写了一篇QA的研究发展史,于是今天也来和大家唠唠QA研究以及国内的落地情况。
QA技术研究发展
如上图所示,Sebastian将QA的研究分为了5个阶段。
第一阶段是封闭域手工解析。这些系统的主要模块就是parser,和今天的semantic parsing任务很像,通过人工定义大量的规则,把句子解析成结构化的query后对数据库直接查询。1963年就有学者提出了Baseball系统来解答相关问题,之后是NASA在1972年提出的LUNAR,用于解答月球上岩石和土壤的问题。
第二阶段是开放域检索。这个框架也是当今大部分QA系统的解决方案,首先根据问题召回相关文档,再从文档中提取答案。不过考虑到速度与效果,现在的系统会提前把问题-答案对准备好,这就演变成了大部分智能客服使用的FAQ检索式问答。这种方法最早在1999年的TREC测评上被提出,2011年的IBM Watson也基于这个框架提出了更细致的pipeline。
第三阶段是阅读理解。研究者们开始把QA简化成阅读理解这样的监督学习问题,也就是给定一个文档和相关query,系统给出答案(也就是span抽取)。但这类数据集的构造基本都是看着答案写问题,直到最近(2019)才开始改成先写问题,再去找文档和答案,演变到了第四阶段的开放域检索+阅读理解。
第五阶段是多轮、多跳、多语言、生成、多模态。随着单轮问答的效果提升,简单query都解的很好了,但离人类还有很大差距。目前的学术界就在解答各个细分的复杂问题。
虽然学术界的进展已经很多了,但研究所用的数据集是没法覆盖现实的复杂情况的,同时深度学习模型的鲁棒性也一直是个大问题,因此目前工业界还在封闭域问答挣扎,即使是封闭域也要先对问题进行分类,应对各种长尾case。
对话能挣钱吗
对话的变现能力主要看能不能产品化。
产品化是指把能力打包成解决方案,首先要有需求,其次要有量,把一份东西卖给多个人,边际成本递减。
这个问题想清楚,就知道为什么ToB不好做了。国内16年开始涌现大批做NLP智能客服的公司,但到现在没有几个能出头的,我认为主要原因就是因为技术发展的限制,无法把FAQ技术产品化,导致换一个客户(换一个封闭域)之后都要从新训模型适配,而模型肯定是不够的,还要针对性的解各种case,这样人力成本就上去了,报价高的话只有大企业买得起,而CEO不一定有大企业的人脉,报价低只能自己倒贴钱吃融资,陷入负循环。
从这个思路来看,ToC似乎是更好的选择,现在看来的确也是。
ToC起码可以做到一份东西卖多份,但切对需求这个点同样重要。
国内最早最有名的莫过于小冰,但我个人感觉纯闲聊还是个伪需求,闲聊主要是情感上的交互,除了生理需要外,情感表达是需要信任和反馈的,如果明知道对方是机器,大部分成年人都不会进行深层交流,同时技术也不允许。
另一个需求就是目前比较成功的语音助理,一方面可以给用户提供信息,比如天气预报、时间,另一方面替用户完成任务,比如打电话、定闹钟、开关灯。国外做得好的有手机助手Google Assitant、Siri,以及亚马逊的智能音箱Echo。国内则有手机微软小娜、小米小爱、百度小度、天猫精灵。手机上的智能助理我有些存疑,但智能音箱我已经把自己说服了。
首先由于巨头前两年的补贴大战,音箱的普及一直在增长,而从使用感受来看,一旦习惯了“命令别人”,就真的很难改掉。比如我现在每天都需要某精灵给我放歌、定闹钟、预报天气,甚至还买了智能插座懒得自己关灯。另外随着国家政策支持(重点发展智慧家庭产品),一些新楼盘的精装交付都会带有智能家居,再加上自动驾驶的发展,大家会越来越习惯AI助理的存在。
从大趋势来看,我们已经走过了PC时代、互联网时代、移动互联网时代,接下来自然而然地便是IoT,基础设施的发展会产生更多的软件应用,对话作为人机交互的接口也会有用武之地。
总结
一直都在做对话、自然语言搜索相关的落地,直到最近才想清楚。虽然从技术角度来看很多事情还做不好,但发展毕竟是个过程,用户也需要培养,长期看依旧是值得进入的方向。
不过对技术人来说,赛道的选择与自身能力都是成功需要的因素,没有选择到热门赛道的同学也不用心急,把能力磨练好总能抓住一次机会。
今天就唠到这里,以上都是个人观点,欢迎讨论。