知识图谱的5G追溯
【引子】“治学先治史”,了解研究领域的历史背景和对于了解未来可能的途径至关重要,关于知识图谱也不例外。周末劳逸结合,本文编译自Claudio Gutierrez和Juan f. Sequeda在ACM上的一篇论文(https://cacm.acm.org/magazines/2021/3/250711-knowledge-graphs/fulltext),将知识图谱的发展划分为5个时期,也就是相当于知识图谱的5G,可以一览知识图谱的历史全貌。
知识图谱的概念来源于不同研究领域的科学进步,如语义网、数据库、知识表示、自然语言处理、机器学习等等。这些不同学科的思想和技术的整合对于从业者是一个挑战,我们需要知道当前的进步是如何从早期的技术发展而来的,并且如何植根于早期的技术。
知识图谱概念所包含的基本要素可以追溯到以图来表示知识的核心思想。例如, 公元前350年左右的视觉形式推理; 卢尔和他的知识树; 林奈的自然世界分类; 以及19世纪和20世纪的科学家们西尔维斯特、查尔斯 · 皮尔斯和戈特洛布 · 弗雷格在形式和图解推理方面的著作。这些思想还涉及数学、哲学、语言学、图书馆科学和心理学等几个学科。
我们基于计算机科学学科的知识、数据、以及它们的彼此结合,遵循一个时间线,虽然有模糊的界限,但仍可以将相关的思想、技术和系统分为五个阶段:
1G——前期
2G——基础阶段
3G——知识时代
4G——网络时代
5G——大数据时代。
知识图谱的1G——数字时代的来临
计算机的出现和普及标志着数字计算的诞生,第一种编程语言(LISP、 FORTRAN、 COBOL 和 ALGOL 是最具代表性的)催生了大规模数据处理,并催生了一个新的科学技术领域,即计算机科学。以下是这个时代的五个相关线索:
自动化推理
继1956年纽威尔、肖和西蒙的第一个处理复杂信息的程序“逻辑理论家”之后,他们在1958年开发了“通用解题程序”,“这个项目是作者们研究工作的一部分,目的是了解人类智力、适应能力和创造力所依赖的信息处理过程。” 编制计算机程序,解决需要智能和适应性的问题,并发现这些程序的哪些种类可以匹配人类解决问题的能力。推理自动化方面的其他几个发展,例如罗宾逊的解析原理,也延续了这一观点,以及格林和拉斐尔通过开发问答系统在数据库中确定证明和演绎之间的联系。在实践层面上,“推理”特性有多种实现方式。例如,约瑟夫·维森鲍姆的 ELIZA 程序,只要编程正确,就可以用英语进行任何话题的对话。
空间搜索
研究人员认识到在空间中搜索的过程代表了一种“智力”或“推理”的形式,对空间有所了解将使搜索变得容易。排序就是一个简单的例子。直到20世纪70年代,25% 的计算时间都被用来对数据进行排序,以便进行任何过程的搜索。甚至在计算机出现之前,从事数据处理工作的人们就对搜索这个概念非常熟悉。然而,在多样化和复杂的空间中搜索的想法是截然不同的,比如在游戏中产生的搜索空间(例如,国际象棋、跳棋和围棋),Dijkstra 著名的寻找最短路径的算法就是是在1956年提出的。
从非结构化数据中检索信息
一旦具备了计算能力,就可以从传统结构化数据之外的数据源获取数据。这些想法可以追溯到 v. Bush 的报告“ As We May Think”,但是在20世纪50年代得到了发展。一个里程碑是 Bertram Raphael 的《 SIR: 语义信息检索计算机程序》(1964)。这个系统展示了所谓的“理解”语义信息的能力。它使用单词关联和属性列表来表示通常在会话语句中传达的关系信息,以一个格式匹配程序从英语句子中提取语义内容。
管理数据的语言和系统
早期的数据管理系统是 Charles Bachman 在1963年设计的集成数据存储(IDS)。虽然效率得以提高,但代价是后来所谓的“数据独立性”。IDS 成为 CODASYL 标准的基础,该标准后来被称为数据库管理系统(DBMS)。此外,专用语言来处理数据的想法导致了 COBOL (1959)的产生,它是面向数据处理的编程语言的一个早期例子。
知识的图形表示
语义网络是在1956年由植物学家和计算语言学家 Richard h. Richens 引入的,作为自然语言机器翻译领域的一种工具。这个概念是由几个人独立提出来的。Ross Quillian 1963年的论文“表示概念信息的符号: 语义学和机械英语解释的应用”旨在允许信息在计算机中存储和处理,遵循人类记忆的模型。他在1967年的博士论文《词语概念: 一些基本语义能力的理论与模拟》中进一步发展了寻找“记忆的设计原则,使其成为人类语言行为背后的知识基础”的想法。
在这些实现中,以下几点最为引人注目: 对自动推理的重要性和可能性的认识; 处理大型搜索空间的问题; 理解自然语言和其他人类知识表示的需要; 语义网(和一般的图形表示)作为抽象层的潜力; 以及系统和高级语言管理数据的相关性。关于局限性,其中最突出的是: 硬件的有限能力(物理和技术) ; 硬件的可用性和高成本; 图表示和顺序执行之间的差距; 人类语言的逻辑和计算机系统处理数据之间的差距。
知识图谱的2G——数据和知识的基础阶段
20世纪70年代,计算机在工业中得到了更广泛的应用。这些年是苹果和微软等公司成立的年代。像 Wordstar 和 VisiCalc 这样的数据处理系统诞生了,它们是个人文字处理器和电子表格的前身。不断增长的存储和处理能力,以及人类的专业知识,推动了改进大公司数据管理方式的需求。
2G时期的数据
数据处理需求的增长带来了以独立概念表达的劳动分工。程序员和应用程序现在可以“忘记”为了访问数据而如何对数据进行物理结构化。这个想法是 Edgar Codd 的论文“大型共享数据的数据关系模型”的核心,该论文描述了将关系作为一个数学模型来提供表示的独立性, 称之为“数据独立性”。这种理论和设计思想促进了数据库管理系统和建模工具的发展。
在建模层面,Peter Chen 在他的论文《 ER模型: 走向数据的统一视图》 ,主张建立基于实体和它们之间关系的数据模型。ER 模型以表的形式将现实世界的语义信息/数据结合起来。这是一个早期的尝试,即关系数据模型。
在系统层面,软件应用程序被开发和实施,以管理基于关系模型的数据,即关系数据库管理系统(RDBMS)。这一时期的两个关键系统是 IBM 的 System R,在《 System r: 数据库管理的关系方法》(1976年)一文中有所描述,以及加州大学伯克利分校的 INGRES,在《 INGRES 的设计和实现》(1976年)一文中有所描述。这些系统是Codd 所描述的关系模型查询系统的“愿景”,包括关系查询语言,如 SEQUEL 和 QUEL,这最终导致 SQL,当前最成功的声明性查询语言。
2G时期的知识
虽然数据流侧重于数据的结构和建立最佳管理系统,但知识则侧重于数据的意义。这方面的一个早期发展是 S.C. Shapiro 的工作,他提出了一种网络数据结构,用于组织和检索语义信息。这些想法在语义网络和处理系统(SNePS)中得到了实现,该系统可以被认为是最早的独立 KRR 系统之一。
20世纪70年代中期,出现了一些对语义网络、结构的批评,主要集中在它们薄弱的逻辑基础上。这种批评的一个代表是威廉伍兹1975年的论文“一个链接里有什么: 语义网络的基础。“
研究人员致力于使用形式语义学来扩展语义网络。框架概念是早期提供本地知识和详细知识的结构和可扩展性的方法。这是由 Marvin Minsky 在他1974年的文章“代表知识的框架”中提出的,被定义为由节点和关系组成的网络。1976年,John Sowa 在他的论文“数据库接口的概念图”中介绍了概念图。概念图可以作为一个中间语言,将自然语言查询和断言映射到关系数据库,表现为概念和关系类型的有序逻辑。在他1977年的论文《为逻辑辩护》中,Patrick Hayes 认识到可以用一阶逻辑来形式化。这项工作后来影响了 Brachman 和 Levesque,使他们确定了一个易于处理的一阶逻辑子集,这也成为描述逻辑学的一个发展。
2G时期数据与知识的整合
在20世纪70年代,数据和知识开始经历一种整合。Robert Kowalski 在《作为编程语言的谓词逻辑》一书中介绍了逻辑作为知识的声明性和过程性表示的使用,这个领域现在被称为逻辑编程。这些想法是由阿兰·科尔梅劳尔(Alain Colmerauer)在 PROLOG 实现的。
早期的系统能够基于知识推理,被称为知识推理系统,解决复杂的问题是专家系统。这些系统将领域知识编码为 if-then 规则。戴维斯、 B · 布坎南和 E · 肖特利夫是最早开发出成功的专家系统 MYCIN 的贡献者之一,MYCIN 成为选择抗生素治疗菌血症的经典范例。这个领域被称为知识获取。
1977年在法国图卢兹举办的“逻辑与数据库”研讨会被认为是一个里程碑式的事件,该研讨会由赫尔夫 · 加莱尔、杰克 · 明克和玛丽 · 尼古拉斯共同组织。一些重要的概念,如 Ray Reiter 的封闭世界假设和 Keith Clark 的否定为失败假设都是在这次研讨会上提出的,这些可以被认为是数据逻辑方法的诞生。许多研究人员认为这是使逻辑和数据库之间的联系正式化的事件,并作为一个独立的领域。
这一时期的实现包括: 对表征独立性的需求和潜力,如关系模型的案例所示; 实用和成功的关系模型语义网络的实现; 认识到语义网络需要使用形式逻辑工具的框架; 以及意识到通过网络结合逻辑和数据的潜力。这些限制包括: 在数据方面,传统数据结构不能灵活地表示新的数据类型(这导致了面向对象和图形数据结构) ; 在知识方面,知识的逻辑形式化薄弱(这是描述逻辑学兴起的动力)。
知识图谱的3G——知识时代
20世纪80年代,随着个人电脑的蓬勃发展,计算机开始走进家庭。在数据管理领域,关系型数据库发展迅速(Oracle、 Sybase、 IBM 等)。面向对象抽象是作为一种新的表示形式发展起来。互联网改变了人们交流和交换信息的方式。
不断增长的计算能力推动了计算领域的发展。反过来,这些数据生成了需要管理的复杂数据。此外,关系革命假定了表示独立性的需要,导致了软件程序与数据的分离。这促使人们想方设法将面向对象程序设计语言和数据库结合起来,导致了面向对象数据库(OODB)的发展。这成为了未来数据中心的特征,如对象、标识符、关系、继承、等式等,来研究如何处理复杂数据。许多来自学术界和工业界的系统在这个时期蓬勃发展,例如 Encore-Observer (布朗大学) ,EXODUS (威斯康星大学麦迪逊分校) ,IRIS (惠普) ,ODE (贝尔实验室) ,和 Zeitgeist (德州仪器) ,产生了一些商业产品。
图作为面向对象的数据、图形和可视化界面、超文本等的表示开始被研究。早期的例子是 Harel 的 Higraphs,以可视化的结构来形式化关系,在 UML 中被广泛使用。阿尔贝托 · 门德尔松和他的学生使用递归开发了早期的图查询语言。
3G时代的知识
20世纪80年代的一项重要成就是理解了逻辑语言的表达能力和推理任务的计算复杂性之间的平衡。Brachman 和 Levesque 的论文“基于框架的描述语言中包容的可处理性”是首先强调这个问题的论文之一。增加逻辑语言的表达能力,计算的复杂性增加。这导致了沿着表达性连续体的研究取舍,产生了一个新的逻辑家族,称为描述逻辑。最突出的系统有 KL-ONE、 LOOM 和 CLASSIC 等。除了描述逻辑之外,当时还在发展另一种形式: f-Logic 深受对象和框架的影响,使它能够在同一种陈述语言中推理模式和对象结构。
这些早期的逻辑系统表明,逻辑推理可以在易于处理的软件中实现。它们成为了后来 OWL 的基础,即语义网的本体语言。
此外,非单调推理技术也得到了发展,例如,引入了大量形式化的非单调推理,包括界限,默认逻辑,自认知逻辑和条件逻辑。
3G时期数据与知识的融合
1980年代的一个相关发展是日本的第五代计划。
鉴于日本在汽车和电子行业的成功,他们希望在软件领域也取得成功。目标是创造人工智能硬件和软件,将逻辑和数据结合起来,并能像人类一样进行对话、翻译语言、解释图片和推理。日本人采用逻辑编程作为逻辑和数据结合的基础。
日本的这个项目引发了世界范围内的热潮,导致了诸如美国的微电子学和计算机技术联盟、慕尼黑的欧洲计算机研究中心和英国的 Alvey 项目等竞争项目的产生,这些项目在整个20世纪80年代和90年代都是硬件和软件的重要研究中心。例如,出自 MCC 的 Cyc 项目,其目标是创建世界上最大的常识知识库,用于执行类人推理。
专家系统在20世纪80年代激增,成为人工智能大肆宣传的中心。我们可以看到产生式规则系统的发展,例如Rete 算法和 Treat 算法,它们可以有效地实现基于规则的系统。专家系统开始显示出了业务价值(例如,Xcon、 ACE),风险投资家们开始投资人工智能公司,比如 intelicorp、 ILOG、 Neuron Data 和 Haley Systems 等。
在学术方面,逻辑和数据相结合的初始方法是在关系型数据库的基础上分层逻辑编程。考虑到逻辑程序指定功能而不指定算法,优化扮演了关键角色,并且被认为比关系查询最优化问题要困难得多。这就产生了演绎数据库系统,它用递归规则对关系数据库进行自然扩展。数据标记语言是 Prolog 关系数据的子集,成为了演绎数据库的查询语言。最早的演绎数据库系统之一是 LDL 系统,在 Tsur 和 Zaniolo 的论文“ LDL: a Logic-Based Data-Language”中提出。
本世纪末,第一个以“知识图谱”为术语的系统研究应运而生。这是 R.R. 巴克的博士论文,“知识图谱: 科学知识的表示和结构。”这些想法后来(1991年)发表在 P. James (一个代表许多研究人员的名字)撰写的一份报告中,题为“知识图谱”。直到下个世纪的第二个十年,这一术语才得到广泛的普及。
这一时期最重要的实现是逻辑和数据之间的集成必须是紧耦合的,也就是说,仅仅在数据库之上的专家系统是不够的; 以及逻辑语言的表达能力和推理任务的计算复杂性之间的相关性。值得强调的两个主要限制是: 否定是一个难题,目前仍然没有得到很好的理解; 大规模的推理是一个无法克服的问题,特别是硬件还没有为这项任务做好准备。这就是所谓的知识获取瓶颈。
知识图谱的4G——网络时代
20世纪90年代见证了两种改变世界的现象。首先,Web的出现,全球信息基础设施彻底改变了传统的数据、信息和知识实践。通用的信息空间使任何人都可以发贴和阅读,从文本和图像开始,以分布式的方式,完全改变了知识和数据管理的哲学和实践。第二,我们社会几乎开始了所有方面的数字化。一切都开始从纸张转向电子化。这些现象为我们今天所知的大数据铺平了道路。研究和工业都转移到了这些新的发展领域。
4G时期的数据
数据库行业的重点是开发和调优 RDBMS,以满足通过 Web 应用尤其是电子商务所提出的需求。这导致产生了大量需要集成和分析的数据。研究和实践都建立在这一势头之上,集中在网络数据、数据集成、数据仓库/OLAP 和数据挖掘等领域。
数据社区转向了网络,发展对网上数据和计算的理解,例如 Mendelzon 和 Milo的论文“Web的形式模型”和 Abiteboul 和 Vianu 的论文”Web的查询和计算”。实现这些目标的一个关键结果是半结构化的数据模型,例如对象交换模型(OEM)、 XML 模型(XML)和资源描述框架(RDF)等。
在此期间,为了做出业务决策,组织需要集成多个、分布式和异构的数据源。产业界和学术界联手开发了诸如斯坦福/IBM 的 TSIMMIS 和 Lore、南加州大学的 SIMS、 MCC 的 InfoSleuth 等许多项目。这些系统引入了中介器和包装器的概念,也将本体引入到数据集成的组合中。
在这种情况下,由于生成和集成了大量的数据,因此需要驱动业务决策报告。这促进了数据仓库系统的发展,数据以星型模式和雪花模式建模。这些系统可以支持对多维数据(即联机分析处理OLAP)的分析。大部分的研究集中在提出启发式算法来实现数据的立体查询优化。业务需求推动了数据挖掘技术的发展,以发现数据中的模式。
4G时期的知识
人们认识到,知识获取是实现基于知识的专家系统的瓶颈。知识获取研讨会(KAW 在加拿大和 EKAW 在欧洲)是研究人员讨论知识获取瓶颈问题的一系列活动。这个主题演变并发展成为知识工程和本体工程科学领域。
网络是一种知识的实现,而不仅仅是数据,也应该被共享和重用。由于需要将管理元数据提升为正式的语义描述,从而引起了对分类法和本体论进行描述和推理的语言的传播。本体论的概念被格鲁伯定义为“概念化的共享和形式规范”。
第一批论证本体论相关性的科学家包括 N. Guarino,M. Uschold和 M. Grunninger。研究的重点是设计和维护本体论的方法论,例如 Methanology,知识获取和文档结构(KADS)方法论,CommonKADS,以及专门的方法,例如 Ontology clean。第一批本体工程工具的出现(例如,Ontolingua、 WebODE 和 Protege)来可以帮助用户编码知识。
4G时期数据与知识的融合
数据库管理系统中的数据和知识的结合体现在演绎数据库中。关于演绎数据库(1990-1999)和知识表示与数据库(1994-2003)的专门讲习班是该领域活动的中心。
推动研究的一个重要挑战是如何在网络范围内处理形式推理。事实上,将网络视为一个数据和知识的通用空间,促使人们需要开发语言来描述、查询和推理这个浩瀚的宇宙。语义网项目致力于将网络上的知识和数据结合起来。下面的发展影响和构建了语义网项目: 简单的 HTML 本体扩展(SHOE) ,存储中介,OIL(本体语言)存储和 DARPA代理标记语言存储(DAML) ,知识查询与操作语言存储(KQML) ,以及欧盟资助的专题网络存储(Ontology-based information exchange for knowledge management and e-commerce)等。其目标是将诸如知识表示、本体论、逻辑、数据库和网络信息检索等技术融合在一起。这些发展产生了一个新的研究和实践领域,围绕着网络及其可能性。
这一时期的主要认识是,网络正在迅速开始改变传统上构想的数据、信息和知识世界的方式; 新类型的数据正在激增,尤其是像图像、视频和语音这样的媒体数据; 最后,人们意识到数据必须被连接起来才能获得价值。在这些限制中值得一提的是,计算能力不足以处理由网络产生的新的数据级别; 纯逻辑技术具有复杂性的边界,使得它们的可扩展性在某些增长领域(如搜索和模式匹配)非常困难,有时是不可行的。
知识图谱的5G——大规模的数据和知识
2000年代见证了电子商务和在线社交网络(Facebook、 Twitter 等)的爆炸式增长。硬件和新系统的进步使得在更大规模上生成、存储、处理、管理和分析数据成为可能。我们进入了大数据革命。在这个时代,随着人工智能引入深度学习,我们看到了统计学方法的兴起。
5G时期的数据
谷歌和亚马逊这样的网络公司推动了数据管理。谷歌引入了一个基础设施,可以使用 MapReduce 处理大量数据。随着 CouchDB、 Google Bigtable 和 Amazon Dynamo 等系统的出现,分布式的数据存储得到了蓬勃发展。这导致了“ NoSQL”数据库的出现,使得列、文档、键值和图形数据模型的数据库管理系统得到了重新推广。处理文本,声音,图像和视频,再次激发了语音和图像识别的发展以及NLP 的进步,例如 Flickr 这样的图像社交网络。
数据管理继续研究数据集成问题,如模式匹配、实体链接和 XML 处理。数据库理论的研究人员转向数据集成和数据交换。
5G时期的知识
描述逻辑的研究团体继续研究利弊权衡,并为知识表示定义新的逻辑概况。推理算法是在软件系统中实现的(例如,FACT,Hermit,Pellet),这些结果被具体化为欧洲 OIL(本体语言)和 DARPA代理标记语言。这两种努力结合在一起,产生了 DAML+ OIL,这是一个基于描述逻辑的本体层,基于 RDF 和形式语义学语言构建。这影响了2004年网络本体语言语义网的标准化,这是语义网的基础。
大数据通过机器学习和神经网络将统计应用推向了知识。统计技术提高了从已知事实推导出新事实的应用。2012年使用 GPU的深度卷积神经网络进行图像分类的研究发出了信号,从而开启了人工智能的一个新阶段: 深度学习。
20世纪60年代,直接通过神经网络建立知识模型的最初尝试在实践中发挥了作用。有大量训练数据和强大硬件可用,这些技术和系统将在很多领域胜过人类。
5G时期数据与知识的融合
数据和知识之间的联系是在这一时期沿着两条线发展起来的,即逻辑和统计。
在逻辑线上,建立了语义 Web 项目,该项目基于先前的结果,如图数据模型、描述逻辑和知识工程。
蒂姆·伯纳斯-李(Tim Berners-Lee)、吉姆·亨德勒(Jim Hendler)和奥拉·拉西拉(Ora Lassila)合著的论文《语义网》(The Semantic Web)引发了业界和学术界的兴奋。支撑语义网的技术正在学术界和工业界通过 W3C 万维网联盟标准化努力同步开发。这些导致了资源描述框架(RDF)、网络本体语言模型(OWL)和 SPARQL 模型等等。
2006年,Tim Berners-Lee 创造了“关联数据”这个术语,设计了一套突出网络数据网络结构的最佳实践,以增强知识。
这导致了关联开放数据(LOD)项目和大型的基于 RDF 图的知识库,如 DBPedia 和 Freebase,最终导致了 Wikidata。LOD 项目演示了如何在 Web 规模上集成数据。2011年,主要的搜索引擎发布了schema. org,一个轻量级的本体,作为一种改进网页语义标注的方法。这些努力是建立在语义网研究社区的成果之上的。
在统计方面,21世纪初,大规模数据处理的统计技术,如语音识别、自然语言处理和图像处理,取得了进展和成功。这促使 Halevy,Norvig 和 Pereira 谈到“数据不合理的有效性”。大数据的世界中,这可能是促使人们寻求新形式的数据和知识存储、管理和整合的动力之一,也是知识图谱概念出现的动力之一。此外,自1990年代以来,研究人员一直在努力解决统计现象,同时采用逻辑和传统数据库(如统计关系学习)的技术。最后,需要强调的是在这些影响下出现的一个处理数据和知识的新领域: 数据科学。
在这一时期的实现中,人们学会了以一种更大的方式思考数据和知识,也就是网络规模; 由于新的硬件和机器学习技术,数据世界进入了神经网络时代。使这一领域难以取得进展的一个主要限制因素是,尽管人们认识到有必要将逻辑技术和统计技术结合起来,但对于如何将这些方法结合起来却知之甚少。另一个重要的限制是,统计方法,特别是在神经网络,仍然无法透明地解释结果。
何去何从
知识图谱从1G到5G,一个值得注意的现象是数据和知识在规模和多样性方面不断增长。与此同时,各种各样的思想、理论和技术正在发展以应对这一问题。有时他们取得了成功,有时却以失败告终,这取决于物理和社会约束,而这些约束的参数大多数时候远远超出了研究者的控制范围。
绝对的成功或失败并不存在,每个想法、理论或技术都需要适当的环境来充分发挥其潜力。知识图谱的概念就是这样的。2012年,谷歌发布了一款名为 Google 知识图谱的产品。由于克服了技术上的限制,旧的思想在全世界得到普及,并被大公司采用。与此同时,其他类型的“图”服务也得到了开发,类似的想法也被其他巨头如微软、 Facebook、亚马逊和 Ebay 所采纳。后来,无数公司和组织开始使用知识图谱关键词来指代数据的集成,由此产生了实体和关系的图。学术界开始采用这个关键词来松散地指定那些将数据与某些图结构结合起来的系统,语义网的再生,以及关联数据。事实上,今天知识图谱的概念可以被认为,不是一个精确的概念或系统,而是一个不断发展的项目和愿景。
正在进行的知识图谱领域在这个意义上代表了围绕图或网络这一旧概念的数据和知识技术的集合。各种公司和学术界正在开发,图查询语言,如 SPARQL 和 SPARQL 1.1,新的工业语言,如 Cypher,GSQL,和 PGQL,研究语言,如 G-CORE,和即将到来的 ISO 标准 GQL。另一方面,大量的知识技术解决了图模型: 在逻辑方面,物化和实现了旧的想法,如语义网络和框架,或者更近一些,语义网和关联数据项目; 在统计方面,通过知识图谱的嵌入,从大规模数据中提取、学习和编码知识的技术。
预测未来并不容易,特别是数据和知识、统计学和逻辑学之间相互作用的结果。如今,我们看到了统计方法和逻辑方法的融合,前者在公众眼中暂时盖过了后者。正是出于这个原因,我们应该注意历史,”恢复”数据和知识领域成就的长期意义。尽管过去的一些想法和发展在当时可能并不成功,或者不为人所知(甚至根本不为人所知) ,但它们肯定包含着富有成效的想法,可以启发和指导未来的研究。
数据传统上被认为是一种商品,而且是一种物质商品---- 一种与格式、比特、物质联系在一起的东西,没有语义本身。传统上,知识被认为是聚合式的“非物质”对象,只存在于人们的思想和语言中。自20世纪下半叶以来,计算机技术将数据和知识的命运联系在了一起。