大数据推动认识论新发展

新的数据收集、储存、分析工具的出现,共同构建起大数据科学这门新学科。现代社会生活中产生的呈爆炸性增长的数据,是大数据科学的主要研究对象。大数据科学的出现,又为科学研究与社会发展提供了新的推动力。目前,不少科学研究都在一定程度上依赖于大数据科学。新数据处理方法可以提高科学发现的准确性和预测能力,并有助于确定未来的研究方向。学者们普遍认为,大数据给人类带来了新的数据分析技术与思维方式的变革。不过,有些学者认为大数据只是服务于科学研究的工具,不承认其具有独特的认识论地位。由数据集产生的知识在可靠性、可解释性等方面受到一定质疑,引发了对科学知识现有理解的挑战。探索大数据科学的认识论问题,可以对这一挑战进行回应,还可以推动认识论本身的发展。

变革知识产生方式

大数据科学,又被称为“数据密集型科学”,以显著增长的数据体积(容量)与累计速度为主要特征。人们对大数据的理解,虽然源于天文学、气象学等领域的研究人员处理大型复杂数据集这一历史,但我们并不能简单以数据容量的大小来定义“大数据”。格雷(James Nicholas Gray)认为,大数据科学是科学研究的第四范式。莱昂内利(Sabina Leonelli)认为,大数据具有认知力,能够在使用不同方法论工具与理论框架的研究群体间架起桥梁(这些群体往往因为概念分散、社会壁垒和技术难题等问题不能相互交流)。大数据科学要求数学、统计与计算机工程等技能的结合,发展出一种特定的认识论研究。这一认识论强调研究手段(建模、统计、模拟等)是研究目标和产出的重要推动力,也是影响研究结果的主要因素。不过,这种认识论又与只承认数据方法论意义的工具主义有着本质区别。

正如伽利略与牛顿以后自然科学的数学化成为近代科学的研究趋势一般,基于数据的科学逐渐成为当代研究发展的新方向。这一方向与计算科学中“数据驱动”概念研究密切相关,并且可以为统计学概率上的可能性研究结果进行辩护。在数据驱动的研究中,研究人员将数据集作为归纳推理的起点,而不需要依赖理论上的一些“先见”。甚至有研究者认为,这样的方式是“理论的终结”。传统的理论驱动方法需要预设一些“不可动摇”的理论原则,数据仅起到假设检验的作用。选择数据驱动还是理论驱动范式,决定了对数据性知识的不同态度。数据驱动下产生的知识,大多只具有相关联系,要寻找其中更为根本的因果联系,往往是较为困难的——这是一种自下而上的知识产生方式,本质依赖于归纳推理。归纳推理本身存在的问题,导致了一种更深层次的反思——从数据中推理出知识的方式是否有效?这样的知识是否具有普适性?

面临可靠性问题

随着社会生活逐步“数据化”,人类活动正受到越来越多的监控和记录,产生了巨大的数字足迹。“无孔不入”的监控设备似乎把人类所有的行为都记录在数据中,由此产生的海量数据成为研究的宝库。为从这类数据中提取知识,人们开发出越来越复杂的计算工具。大数据科学通过采用新颖、高效的方式来计划、实施、传播和评估研究,革新了知识的产生方式,但同时又引发了知识的可靠性问题。

传统科学知识被逻辑经验主义解释为:得到部分诠释的逻辑公理系统——知识的可靠性被逻辑形式上的可靠性所支撑。科学理论语义观者将科学解释为:与世界同构的模型集——知识的可靠性被模型与表征的可靠性所支撑。在传统认识论中,认识主体对数据的认识是次要的,对数据本体与认识的讨论往往是“细枝末节”。但随着自动化工具越发应用于对复杂数据的处理,是否应把机器当作新认识论的主体成为研究重点。萨普斯(Patrick Suppes)将统计方法引入哲学研究中,试图用概率与逻辑为数据推论的准确性进行辩护。随后,以统计为切入点(主要表现为相关性概念的引入),成为为大数据推理产生知识的合理性进行辩护的主要方式。范·弗拉森(Bas C. van Fraassen)也认同总结数据频率以建立数据模型的做法。基于此,可以得出一个结论:数据处理工具越好,从数据中提取的知识就越可靠。但这与对知识的一般性认识发生了冲突——知识不是以好坏而是用真假来评判的(如“知识是得到辩护的真信念”这一传统观点)。因此,将实践上的好坏作为大数据科学中知识可靠性的判断标准,往往是一种不明智的选择。

有研究者认为,数据是一种具有本体实在支撑的客观存在,从数据中获得知识具有客观基础。大数据科学中知识的积累是通过如下方式进行的:通过可靠的方法收集数据,由此产生大量可供分析的“数据型”事实,这些事实与其他数据具有某种意义上的相关性,可以通过深入挖掘这种相关性以获得更多知识。不过,许多研究者意识到,数据具有多种解释方式,如何区分正确与不正确的解释,在一定程度上决定了由此产生知识的真假,而这种区分往往是规范意义与实用意义上的。因此,一种基于数据解释的认识论研究开始进入哲学的视野——将数据作为认识论研究的核心内容,对有关科学知识的传统哲学观点提出了重大挑战。

应对可解释性问题

计算技术、建模工具和统计方法的应用,给我们带来了巨大的便利。但与此同时,大数据成为一个巨大的“混杂奖池”,能得到什么“奖品”,往往需要凭借工具的优劣(比如,监督学习、模型拟合、深度神经网络和搜索技术的应用,使数据分析技术成为“抽奖”的重要工具)。弗丽嘉(Roman Frigg)与赖斯(Julian Reiss)认为,计算科学中的模拟方法没有产生新的形而上学、认识论、语义学和方法论,也没有提出任何新的哲学问题。与模拟有关的哲学问题并非特定于模拟领域,而是大多为之前在其他语境中讨论过的问题及其变体。因此,他们主张,计算机模拟没有带来认识论上的新问题。汉弗莱斯(Paul Humphreys)反对这一观点,他认为,计算科学“没有为科学引入任何实质性的新东西”的观点,实际上忽视了实践可能与原则可能的区别。

纵观大数据科学研究的整个过程,有两个地方是较为模糊的。一方面,人类的认知能力存在局限性,对机器与数据的完全理解是无法实现的。另一方面,机器介入认识过程后,认识主客体不再具有明显界限。这引发了一个无法回避的知识产生过程的不透明性问题,即机器知识的可解释性问题。为分析大数据而开发的数学和计算工具,对于认识主体而言通常是不透明的。那么,由此产生结果的可信度应如何评估?看似牢固的科学大厦如何建立在“摇摇晃晃”的数据知识之上?因此,知识的可解释性问题亟待解决。尤其在人工智能领域看似一片繁荣的景象中,真正意义上的智能进步却尚未出现,而人工意识领域的前景也是模糊的。这意味着,对数据与智能的哲学认识,尤其是对数据的认识论研究,需要走在相关科学研究的前面。

大数据科学的认识论研究,是对哲学视域下科学知识本质问题的推进。鉴于近现代科学的巨大成功,科学界与哲学界往往以较为乐观的态度看待科学发展,而较少反思科学的本质、知识等基础问题,容易对基于数据知识的认识界限问题缺乏足够的重视,这给以计算为特征的新科学研究埋下了隐患。哲学的视野不应仅局限于对计算与数据的表面分析(如对软件与硬件迭代速度的关注、对某类算法优越性的分析等),而应去追问作为科学大厦地基的数据如何可信。大数据科学的认识论研究,需要将知识的可靠性与可解释性问题作为重点,推动认识论的新发展。这既是对传统认识论的延续,又是对当代科技发展给哲学提出新要求的回应,还是对相关科技伦理问题研究的奠基。

(本文系国家社科基金重点项目“大数据个性化知识的本体论意义与认识论价值研究”(18AZX008)阶段性成果)

(作者单位:北京师范大学哲学学院)

编辑:刘岩

(0)

相关推荐

  • 闫坤如:数据主义的哲学反思

    [摘 要]大数据的出现产生革命性作用,它引发认识论革命.方法论革命和价值论革命.在大数据革命的颠覆性作用下,数据主义正在日益兴起并且影响学者理解和对待世界的方式.数据主义的哲学本质是数据与世界同构,其 ...

  • 为何说哲学的认识论转向是一个伪命题?

    在现代文明的开端,知识的可靠性问题重新得到审视,由此出现了一种所谓的哲学的认识论转向,即由传统的形而上学转向于认识论. 这种观点的出现并不意外,因为现代文明需要考察自身的可靠性基础,而作为这种文明的承 ...

  • 哲学的价值是什么?

    dgetu427732013.07.01 不要笼统地价值概念 1个回答 满意答案 feh897658 2013.07.02 请参考网络资料, 哲学具有一种乐趣,哪怕是形而上学的海市蜃楼也有它引人入胜的 ...

  • 工信部副部长刘烈宏:中国大数据产业将进入发展新阶段

    工业和信息化部副部长刘烈宏在2021中国国际大数据产业博览会开幕式上讲话. 瞿宏伦 摄 中新网贵阳5月26日电 (记者 杨茜)"中国的大数据产业也将进入集成创新.快速发展.深度应用.结构优化 ...

  • 推动制造业与大数据融合实现转型发展

    作者:天津商业大学经济学院副院长.教授 吕明元:天津商业大学经济学院硕士研究生 苗效东 加快我国制造业高质量发展,推进大数据和实体经济深度融合,是党的十九大报告提出的实现经济高质量发展的重要举措.20 ...

  • 研究中心组织召开2020年专利大数据支撑新技术新业态发展项目结题评审会

    近日,国家知识产权局专利分析和预警工作领导小组办公室(知识产权发展研究中心)组织召开2020年专利大数据支撑新技术新业态发展项目结题评审会. 此次评审会涉及海洋作业平台.智能芯片.人工智能.6G通信. ...

  • 大数据推动金融创新发展

    在信息化数字化的背景下,全社会数据信息量呈现指数增长的趋势.互联网是时代发展的必然结果,大数据技术已经渗透至各行各业.大数据对于金融行业而言,可以精准获取客户信息.有效提升资本的利用效率.大数据是推动 ...

  • 大数据推动金融体系的大变革

    大数据推动金融体系的大变革

  • 掘金结构性机会!采掘等四行业逆市吸金逾50亿元 两大数据揭示资金新动向

    原标题:掘金结构性机会!采掘等四行业逆市吸金逾50亿元,两大数据揭示资金新动向 摘要 [掘金结构性机会!采掘等四行业逆市吸金逾50亿元 两大数据揭示资金新动向]在震荡调整中,市场结构性机会突出,已成为 ...

  • 中国大数据与实体经济 融合发展白皮书

    该白皮书对大数据与实体经济融合发展情况进行了全景展现,报告显示我国大数据融合发展已具备技术.产业.应用和政策基础,大数据在制造业.农业.服务业等实体经济各领域应用不断深入,给经济社会带来的益处和价值日 ...

  • 全国各省市大数据产业“十四五”发展思路汇总分析(图)|中国大数据|中商产业研究院

    中商情报网讯:大数据,IT行业术语,是指无法在一定时间范围内用常规软件工具进行捕捉.管理和处理的数据集合,是需要新处理模式才能具有更强的决策力.洞察发现力和流程优化能力的海量.高增长率和多样化的信息资 ...

  • 蘑菇街要用AI和大数据重塑“时尚新零售”,你怎么看?

    原创 丨妮可 来源丨零售氪星球(ID:LS-KXQ) 氪星球分析| 不论是美国亚马逊,还是中国的蘑菇街,电商势力们在积极推动AI在时尚业的应用,更在重塑时尚业. 一方面,融合了时尚顾问穿搭感觉和机器算 ...