美国“存储Twitter”,中国也要给博文“建档”
4月19日,“国家图书馆互联网信息战略保存项目”在北京启动。
这个项目的名字有些让人费解,国家图书馆与互联网信息怎么会联系在一起,还要战略保存呢?这要从图书馆的变迁说起。
图书馆存储公共数字资源
查一下国家图书馆的百度百科就能知道所以然。
国家图书馆是世界最大、最先进的国家图书馆之一,也是亚洲最大图书馆。互联网时代,随着信息创造、传播和存储的数字化,国家图书馆与时俱进,1995年就按照数字化、网络化建设的思路,制定了《国家图书馆网络建设发展规划(1997-2000)》。2001年11月,国家图书馆二期工程暨国家数字图书馆工程正式立项。截至2017年12月,馆藏数字资源总量达1323.35TB,包括电子图书、期刊、报纸、特藏专藏和视听文献。
换言之,图书馆早已不是人们印象中的一个存满纸质图书的物理空间,而是一个以各种载体储存人类创作信息的地方,图书馆的本质就是信息存储空间。在软件工程里面,library也有“信息库”的意思,它包含构建应用所需的一切,如源代码、资源文件等等。我大学读的是软件工程,一个室友留校在图书馆工作,当初以为他放弃了本业,现在看来,我误会他了,图书馆数字化的大趋势下,计算机、信息化、数字化都变得越来越重要。
互联网公司有海量信息存储在自己的数据库,就像人人家里都有藏书一样,但在社会中扮演书籍收藏和公共文化服务的则是图书馆,这样再来看“国家图书馆互联网信息战略保存项目”就更容易理解。
按照官方说法:
翻译一下,就是国家图书馆启动一个项目,希望可以采集和存储有价值的中文互联网信息,再将这些信息用于社会,比如政策决策和学术研究等非商业用途。
用国家图书馆官方公布的话术来说就是:
现已成为阿里副总裁的涂子沛在《大数据》一书也曾分享,美国政府运转的底层基础其实就是数据,“社会计算是大数据时代最大的亮点。”这本书拿到了国家图书馆文津图书奖,想必对国家图书馆管理层也有所启发。
国家图书馆从2003年开始尝试对互联网资源进行采集和保存,2009年成立互联网信息保存保护中心,对国内外政治、经济、文化、科技等领域重要网站和重大专题资源进行采集保存,截至2018年,全国各级公共图书馆累计采集网站23000余个。“推进数字资源建设与保存工作”是国家图书馆“十三五”规划的重要工作之一。在这样的整体规划下,国家图书馆启动了互联网信息战略保存项目。
首家互联网信息战略保存基地同日在新浪挂牌,由国家图书馆与新浪共建。国家图书馆相关负责人透露:
换言之,大多数互联网公司都可加入这一项目,这是国家图书馆牵头的一次社会化数据共享、存储和应用实验。
美国国会图书馆存储Twitter
美国图书馆行业一直走在世界前列,一方面,图书馆历史久、数量多、规格高,比如每个大城市都有历史古老且富丽堂皇的公共图书馆,很多城市图书馆已成为旅游者打卡地。另一方面,受益于发达的IT产业,图书馆拥抱数字化技术较为积极。
美国国会图书馆是美国四个官方国家图书馆之一,是美国历史最悠久的联邦文化机构,已经成为世界上最大的知识宝库。2010年,它就与Twitter达成一项合作协议,后者向前者提供所有公开的推文,已被删除和屏蔽的除外,其认为,Twitter上简短的信息可以将“国家故事”中微小、但却非常重要的部分反映出来。
美国国会图书馆与Twitter的“Twitter保存项目”通过总部位于科罗拉多州博尔德市的社交媒体聚合网站Gnip落地,Gnip发现要做好这件看似简单的“信息存储”的事并不容易。
首先,数据高速膨胀。项目启动三年后,2013年Gnip终于实现了对1700亿条推文的存储,当时已需要每天存储用户创造的4亿条内容,这对存储空间的消耗十分惊人。移动互联网时代,随着越来越多人使用Twitter,每天产生的内容高速膨胀,而且短视频等新的内容形式被不断引入——数据大爆炸是整个互联网面临的问题。
其次,数据峰值问题。Gnip直言,这一项目真正的挑战来自高峰时期对tweets 的收集,比如2011年3月日本海啸期等事件的爆发,当时,每秒钟产生的tweet信息数量有好几千。
再次,数据利用问题。碎片化的数据多且杂,要利用它们就需要大数据挖掘等技术。美国国会图书馆的想法是,先把数据存下来再说,怎么用来不及考虑,甚至连归类都来不及做,到现在,这些数据也仅仅是存储下来而已。
最后,数据开放问题。既然是公共图书馆,最大价值就是对全社会开放,数字内容也不例外。在美国国会图书馆启动“Twitter保存项目”后,全世界研究人员都很感兴趣,他们很快收到来自世界各地研究人员的约400个查询请求,查询的主题涉及文化、政治、医疗、经济等诸多方面,然而数据量太大,技术实现不了——即使对2006年和2010年间产生的tweet查阅一边也需要24个小时。
美国国会图书馆在2013年公布的白皮书中写到:
当时,美国政府开始推行财政紧缩政策,国会图书馆经费紧张,此前其在数据收集上已花费一大笔资金,没有更多资金投入到数据的挖掘、利用和开放上。2018年,这一项目再次遇到困难,Twitter信息爆炸式增长,服务器不堪重负,美国国会图书馆表示将不再收集Twitter上所有公开推文,而是保存他们认为重要的(比如特朗普的?),到现在为止,这一项目也仅限于数据存储,依然未能实现对数据的挖掘、利用和开放,当然我们不用怀疑这样做的价值:数据就是资产,未来终可挖掘。
不只是美国,澳大利亚、法国、瑞典和荷兰等国都在90年代启动了国家级的互联网数据收集策略,相对而言,中国“国家图书馆互联网信息战略保存项目”虽然来得较晚,却有望基于当下更加成熟的技术和更加独特的模式,实现互联网信息存储、利用和开放的多赢。
国家图书馆凭什么存储整个互联网?
或许是看到了美国国会图书馆与Twitter合作遇到的困难,“国家图书馆互联网信息战略保存项目”采取了截然不同的模式。
与美国国会图书馆将Twitter内容存储到合作方的服务器不同,“国家图书馆互联网信息战略保存项目”采取社会化、分布式和分级式的数据保存机制,国家图书馆根据保存规范、数据遴选机制和服务需要提供使用需求,互联网公司负责内容存储,这样可以避免数据的重复存储。
将所有互联网数据进行二次存储本身就不现实。互联网内容十分多元,比如首家参与到这一项目的微博,覆盖的数据类型比Twitter更多样,不只是有短文字,还有短视频、图片和文章等大杂烩内容,财报显示,2018年12月微博月活已达4.62亿,12月日均活跃用户数突破2亿关口,微博上的存量内容,截至2018年12月已有多达2000多亿条博文、500多亿张图片、4亿个视频和近5000亿互动,每天博文增量超过1亿,数据量巨大。如此海量数据,再转存到单独服务器即不可能,亦无必要。
正是基于社会化存储的模式,“国家图书馆互联网信息战略保存项目”不像美国国会图书馆只与Twitter一样“点对点”合作,而是“点对多”合作。国家图书馆牵头,任何符合条件的互联网公司都可申请加入其中。随着移动互联网的普及,互联网正时时刻刻对真实世界进行映射,不仅是微博的博文,快手记录真实世界的短视频、知乎的帖子,都是宝贵的社会信息资源,都可以成为“国家图书馆互联网信息战略保存项目”保存的目标。
尤为重要的是,“国家图书馆互联网信息战略保存项目”不只是单纯地保存数据,而是“保存、利用和开放”三管旗下,国家图书馆擅长的是学术和公信力,而不是技术,因此具体的应用依然是国图提需求,互联网公司负责信息处理。
比如在与新浪的合作中,互联网数据分析报告、政府公开信息分析报告、社会群体的公益性信息服务,都有可能成为这些信息的用途。今天,AI技术特别是自然语言处理技术比前几年已经成熟很多,拥有信息流、搜索等业务的微博和新浪在自然语言处理技术上也有深厚积累,这意味着,它们有能力对平台上的海量互联网内容进行挖掘,满足公共社会的非商业公益查询需求。
从“国家图书馆互联网信息战略保存项目”的设计来看,应该是看到美国国会图书馆与Twitter的合作模式的弊端后,进行的全新机制设计。虽然这一项目没有形式上的“保存”,但事实上却实现了互联网公开信息的“归档”,同时可以实现利用和开放。
跟美国国会图书馆看中Twitter“小却重要”内容能反映社会进程的逻辑一样,国家图书馆首先与微博合作也是看中其UGC社会化属性。微博上每个用户以不同形式从个体视角记录生活、探索世界和讨论话题,形成了海量信息,这部分信息和其他互联网平台的信息是差异化的,而在国家图书馆此前对互联网信息的采集和保护中,这类信息也不是重点,是从结构上丰富了国家图书馆的馆藏信息,所以具有更大的价值。
不仅如此,最近几年已经发生过很多因为公众在微博上的参与而引起关注、最后推动事件获得解决的案例,比如2017年网友举报有人驾驶越野车追赶藏羚羊的案件、2018年的“疫苗造假事件”等。可以说,微博不但是能全面反映社会发展进程的互联网平台,而且用户在微博上发布的内容,本身就是社会发展进程的一部分。这种独特的价值是其他平台无法取代的。
如果“国家图书馆互联网信息战略保存项目”项目能够成功,对于很多已经和即将开展互联网信息保存的国家来说,应该会成为又一个“中国式样本”。