说“快乐”还是“安康”?如何在不抬杠的情况下用AI搞定这问题

祝大家端午节快乐,我们今天要聊的…..什么?不能说快乐了?显得没文化?

哦,那祝大家端午节安康,咱们今天……什么?端午节安康都是一群营销号瞎忽悠的,相信他们还是没文化?

到底还能不能好好说话了?要不我干脆祝大家端午节多吃月饼得了?

放眼望去,这个折腾了几年,某种程度上近乎于闹剧的“端午节安康”问题,在今年非但没有停下来的意思,反而矛盾愈演愈烈,一时间好不热闹。也不知道是不是已经有了“安康快乐对骂群”,反正整体上是感觉这事挺耽误大家吃粽子的时间的。

在我们这行业看来,当然是一切能动科技的都别瞎吵吵。既然到了相持不下的境地,是不是可以考虑用相对公允的方式来解决无止境的争论呢?毕竟安康派和保快乐党都说自己是传统文化,既然是传统总归是有据可循的。

今天是个思古的日子,不妨让我们从安康和快乐的问题开始,来聊聊AI+考据的“怀古之思”。

到底争的是什么?

安康派之所以诞生,是因为前两年突然朋友圈里有这么个说法火了:端午节是纪念屈原,或者纪念伍子胥、纪念曹娥的。总之这是个祭祀和哀伤的日子,不能说快乐。这个说法很快流行起来,比如今天大部分明星发的端午节微博,似乎“安康”已经成了标准说法。

根据凡事必有反转的互联网定律,随后也有人认为这种说法纯属无稽之谈。端午节快乐说了那么多年,我想快乐就快乐还用你批准?于是,争论最终很自然地变成了争吵,两边都觉得自己是更符合传统文化的一方。

首先笔者非常想要感慨的是,整个话题中最大成分只是营销号恶意蹭流量,以及广大网友们进行喜闻乐见的“抬杠运动”,真没什么意思。

而实事求是地说,现在能找到最早过端午节传统的记载,是唐代《艺文类聚》保留《续齐谐志》中南朝时期的民间节日风俗,在端午这天为纪念屈原而系五彩绳、包粽子。换言之端午节最早出现在可追溯的历史文本中,它就是以一个有吃有玩的节日出现的。而早期文本,比如出现屈原其人其事的《史记》,据说为屈原创作的《楚辞》,都没有过任何五月初五相关的记载。

作为一个节日的端午,自然也承担着一个节日的气氛和话语定位。唐宋时对端午节、端阳节的记载,也基本是把酒言欢为主。当然这是个追怀的日子,但也没见过一定要在这个日子肃穆庄严的记载。很多历史学教授专家,也对安康说不屑一顾。

话说回来,重阳是避灾躲难的,那也有“佳节又重阳”。而今天肯定没有人祝邻居“清明节快乐”,但在古人来看清明本就是郊游玩赏值得开心的日子。程颢《郊行即事》是这么说的,“莫辞盏酒十分劝,只恐风花一片飞。况是清明好天气,不妨游衍莫忘归”。

或许可以这么说,所谓的中华传统,远比我们今天的互联网氛围宽怀大度的多。

好吧,一不小心暴露了立场。但是我们还是要强行回归中立客观:既然你有你的道理,我有我的道理,那到底怎么能彼此不抬杠呢?

或许AI可以在这里刷一个助攻。既然整个安康和快乐之争,争论的核心是:固定文本环境中(代表中国历史传统的文本数据,包括但不限于经史古籍),某种涵指解读(端午节到底是不是值得庆祝的)的正确性。

那么用把所有相关数据都找出来,判断一下古人到底能不能在这天快乐,似乎就是解决方案了。

AI搞清“端午到底快不快乐”

实现方法

或许有人会说,这事好像用不着AI,把古籍数据里的端午节记载都搜出来。一看不就知道了吗?

想法固然是好的,但现实从来都很骨感。首先中国古籍系统当中,《四库全书》所代表的经史系统其实只是很小一部分。各种文书、档案、民间文本、吉金、出土资料,加在一起汗牛充栋都不止。假如只是用关键词搜索,或者只是用部分古籍库来完成文本方式,那么肯定无法完成完全的数据统计,从而得到的结果当然也就片面。

假如我们搜找了100个“端午快乐”的数据源,但是安康派认为还有200个反例没找到,那岂不是白忙?

而假如面对全部古籍数据(包括未电子化数据),来进行一个问题的全面求证。那么人力是完全无法负担的,而且也一定会有大量纰漏。比如说有些小众的端午节说法、隐晦的端午节记载描述难以被人发现。而且群体工作也很难形成对端午节到底是不是端康的准确标准。

假如让AI进场,至少可以解决这样几个问题:

1、确定我们要分辨的问题“端午节到底是值得庆祝的,还是反之”以后,我们可以用机器学习的方式输入大量双方观点,来形成对端午节到底应该怎么过的标准化描述。基于文本来抽取关键节点,从而准确判断一条古人过端午的记载到底是快乐的还是不能快乐。

2、非标准文本的识别。如今OCR等识别技术,已经广泛被应用到金石资料、敦煌文献、手写文档的识别中。如果我们想最大程度搞定到底端午是否快乐,就无法离开对非标准文本的识别工作,传统的文本录入方式完全是基于手工大字。早期很多中文古籍库还是以众包的方式交给本科生来录入,造成讹误百出。AI来做这些,显然在效率和准确度上都已经有了技术保障。

3、弹性判断相关数据。人工判断端文本特征的时候,很可能会漏掉一些不常见描述,很多时候这不是因为研究人员不知道这件事,而是由于大脑的选择性记忆误差,天然会漏掉不那么敏感的说法。而AI的优点是可以弹性判断相关数据,比如不说端午节,而是端阳,午日,重五,女儿节,浴兰,地腊等字眼,或者非关键词的描述形式,都可以有效处理。

4、综合感知,判断“良品率”。工业互联网技术中,一个很常见的方式是机器视觉加传感器,来综合判断出产品的质量。通过复杂的算法模型,最终得出是否良品的确定性标准。在文本温习中,类似使用GAN等算法来进行语义分析,判断一个语句含义归属的方式,显然也是可行的。比如上文中“喜逢佳节,端午良辰”,这个说法显然就是“端午快乐”。

其实吧,以上只是个例子,也没有谁会较真到去大张旗鼓统计端午到底快不快乐。这些技术的真正内涵,是一个人文学术与AI的交叉点:AI考据。

比抬杠重要:

AI带给文本考据的机会与挑战

AI与考据的结合,显然比端午节问候的抬杠重要很多。这项技术在今天世界范围内还属于刚刚起步的阶段,但绝对不是无中生有。

在AI考据之前,是很多人熟悉的“E考据”概念。这个解决方案是以互联网和大数据为基础,从古籍电子化开始,用相对人力更有效率的方式来透视人文文本,甚至得出不一样的结论与分析逻辑。这个领域的代表人物,可以说是台湾的黄一农院士,其用《红楼梦》相关文献与清史文本结合,得到的成果令人耳目一新。

但E考据的局限性,在于它仅仅解决了考据第一步的问题:数据庞大。而面对庞大的数据和不同层次的文本,能否用技术取代进一步的人工,则成了考据学发展中的下一个话题。

考据的本质是什么?乾嘉学派代表人物王引之,在评价其父王念孙的治经之道时,总结为“诸说并列,则求其是,字有假借,则改其读”,充分体现了考居家的工作依据:音、形、义之间的转换与互通。

让智能体实现对语境的理解和跳出跳入,显然是仅仅依靠数据技术所无法达到的。那么AI技术也就成为了接下来文献学与历史学发展中,可以相互融合的技术手段。

马创新等所著的《中文古籍数字化的开发层次和发展趋势》中,谈到下一步电子考据与古籍开发的任务,是解决古籍内容的深层语义标注和知识检索方法。那么其能凭借的核心,似乎也仅仅是AI而已。

在电子文本分析中,AI可以让尝试,至少是帮助研究者摆脱对关键词考据的依赖,实现主动对文本含义的辨别、搜求,与多重内涵确认。这是其他技术所无法复制的。

当然即使这项技术很有用。摆在今天人文科学,尤其是文献学研究面前的挑战也非常艰巨:想要让AI技术、硬件环境与人文素养与研究能力结合,今天似乎很难有这样的跨学科人才与研究环境。而且即使是技术相对简单,效果很清晰的E考据,在传统人文研究领域面前,走的也是举步维艰。

更多现实应用场景

上面这些考据学的相关内容,可能相对有点生涩。那么最后我们不妨看看几个AI+文本考据可能带给大众的能力释放:

1、文本溯源。其实相比于端午安康的合理性,我更好奇的是这个说法是谁编出来的。而今天显然经常有这样的问题,谣言、不实信息这类的有害信息。或者一个精彩段子,一个奇思妙想的真正作者;一个文本如何被改的面目全非;一篇报道有没有断章取义,这些场景都会让我们想要溯源文本,看看最初的文本模样。这就需要成熟的AI文本考据来实现,至少是作为辅助文本溯源的方案之一。

2、问答式搜索。今天搜索引擎已经有了问答式搜索的功能,但很显然,这还仅仅是个雏形。因为大量垂直问题和具体问题,是搜索引擎的知识图谱技术无法侦测到的。而发展AI文本考据技术,可以让算法主动连接海量文本,去识别深处归纳出答案,这对于知识的传播价值巨大。

3、过往文本加链。区块链很火爆的时候,一个被提及的重要场景是电子合约与文本著作权保护。但加链技术仅仅能保存新文本。如果我们想对过往文本,比如说以某人的聊天信息、某个网站发布的谣言等等进行加链,保留不可更改的证据逻辑时,就需要涉及到对过往文本的识别与分析处理。这也是AI与区块链相结合的一个可能性。

说了不少,其实我们是想借端午安康这个梗,来谈一个平时谈比较晦涩,但其实十分重要的AI技术类别。说到底,安康还是快乐,又有什么关系呢?最好的端午节解释,当然是闻一多先生说的那样:只要屈原的精神在就行了。

而在笔者这样的吃货看来,只要粽子是甜的就行了……

(0)

相关推荐