网易《数读》栏目数据新闻的真实性研究 / 开普饭

摘要：本文通过文献梳理对数据新闻的真实性做了简单界定，然后通过对网易《数读》栏目创办至今的所有数据新闻进行内容分析，试图探究该栏目数据新闻的真实性问题。研究发现，网易《数读》栏目中的数据新闻在把握真实性方面存在风险：真实性的把握主要依靠“权威”渠道来控制，其中对国外非政府组织这一信源依赖程度最高；媒体本身对数据新闻真实性的把控较弱，在数据处理的问题上没有进行加工使用，同时多种信源交叉印证上做的不够好；很大一部分数据来源描述模糊，原始数据的缺位。

关键词：新闻真实性；网易；数据新闻

中图分类号：G210.7 文献标识码：A 文章编号：1672-8122（2018）03-0079-02

一、引言

随着互联网技术的发展与普及，“数据新闻”浪潮开始兴起。它突破传统的新闻生产流程，改变以文字为中心的报道方式，被新闻业界视作应对大数据时代的革新实践。这一发端于业界的新实践，最早源自欧美新闻业界的个别媒体，之后在全球范围盛行。

国内数据新闻的实践及研究起步相对较晚，直到2012年“大数据”概念开始引入中国，“数据新闻”这种挖掘数据背后关联与模式的报道新形态才逐渐被人们所关注。2012年1月13日网易创立了《数读》栏目，成为国内媒体探索数据新闻本土化的“领头羊”。而后各大网站、媒体纷纷成立相关栏目进行数据新闻的报道尝试。

然而，数据新闻作为新闻的一种报道形式，同样需要遵循新闻真实性等原则[1]。而数据新闻成稿的背后往往是海量数据，如何在纷繁复杂的数据丛中验证新闻的真实性问题也成为了当下一大难题。本文尝试以网易《数读》栏目为研究对象，参考《数据新闻：一个亟待确立专业规范的领域——基于国内五个数据新闻栏目的定量研究》（下文称论文1）一文中采用的研究方法，试图将本论文的部分研究结果与上述论文进行纵向对比，希望能解答“数据新闻的真实性”问题。

二、研究方法

（一）样本选择

本研究运用内容分析法对网易《数读》这一最早探索数据新闻本土化的栏目做定量研究，从报道的角度反观报道中涉及的新闻真实性问题。

选取该栏目的原因是：首先网易《数读》是中国最早一批探索数据新闻的栏目，且运营至今仍保持着良好的用户活跃度；其次该栏目在数据新闻业界具有一定的影响力，且单篇的用户参与度高；最后该栏目依托于网易这一门户网站，属于互联网时代中国网络媒体的一个典型性代表。因此选取这一研究对象，无论从样本数量还是样本的代表性等方面，都具有典型性。此外，本论文的出发点在于希望为网易这《数读》这一数据新闻栏目的发展提出建议与意见，故将之作为研究对象。

《数读》栏目以“用数据说话，提供轻量化的阅读体验”为定位，每周发布2～3条数据新闻，每周一三五更新。从2012年1月13日至2017年8月30日共计291条。除去重复的样本（一篇数据新闻放在两个或以上的专题分类中）和丢失页面的样本共4个，样本数为287个。其中，国际专题中样本54个，占比18.6%；经济专题中样本37个，占比12.8%；政治专题中样本23个，占比7.9%；民生专题样本52个，占比17.9%；社会专题样本77个，占比26.6%；环境专题样本16个，占比6.6%；其他专题样本28，占比9.7%。

（二）类目建构与编码说明

本研究将主要从“数据来源”、“数据质询”等研究变量来对数据新闻真实性进行量化研究。

“数据来源”变量中，确定三个从属指标：数据来源的数量，数据来源的描述以及数据来源的机构单位。数据来源的数量确定为无、一个、多个。数据来源的描述，可以区分为没有提供数据来源、给出了数据来源的范围但读者无法获取、可以通过描述找到具体来源。数据来源的机构单位可以分为：无、国内政府机构、国内非政府机构、国外政府机构、国外非政府机构、混合型、自采型。数据源由跨类型机构合作或者采编人员采纳跨类型数据，则计入混合型。网易自己调研数据则为自采型。

“数据质询”变量当中，采用赋值的方式来分析数据质询，没有数据处理（或全文字）则为0分，单纯展示数据源中的数值为1分，进行数据源多角度、多样性质询，如对比等，则为2分，深度挖掘，做探索性、预测性等数据处理就计为3分。

本设计由两名编码员负责编码，进行过培训和信度测试，编码员间信度超过0.9后开始正式编码。变量分析将采用spss软件进行数据分析。

（三）研究假设

本文将试图探究网易《数读》栏目中的“数据新闻是否具有新闻真实性”的问题，首先将假设该栏目中的数据新闻具有新闻真实性。

那么需要继续验证以下几个假设：

假设1：所有样本都应该交代数据来源，且数据来源大多清晰明确。

假设2：样本数据的来源机构应该较为平衡。

假设3：为确保数据的真实性，数据来源应该较为多样，相互印证，故数据来源数量与数据处理的数值之间应该呈现正相关。

三、研究发现

通过SPSS软件对数据进行分析后，得出如下结果。

（一）假设1验证

从“数据来源数量栏数量百分比”来看，假设1部分成立。

首先，研究涉及的287个样本全部交代了数据来源。其中，160个样本中提到了1个数据来源（55.7%），127个样本中提到多个数据来源，占比44.3%。

尽管所有的样本都交代了数据来源，但超过6成的样本交代信息来源模糊，只简单交代了数据来源的模糊范围——读者难以根据提示找到原始数据；仅36.9%的数据新闻提供了清晰链接或数据来源文本标题。

（二）假设2验证

根据对样本数据来源的机构单位样本数的统计，可知假设2不成立。

首先，样本中混合型数据占比较低，为18.8%。（混合型数据指的是数据源由跨类型机构合作或者采编人员采纳跨类型数据）。

第二，网易《数读》中数据新闻大多涉及国内领域，但287个样本中有67.2%的数据来自国外机构，国内机构（政府组织和非政府组织）仅占14%。国内数据来源与国外数据来源比例失衡严重。

第三，政府组织与非政府组织比例不平衡，其中国内外非政府组织所占比重大（67.3%），政府组织的数据采用比例小（14%）。

从上述结果看，样本数据的来源机构不平衡，国内外数据、政府组织与非政府组织数据比例失衡，容易影响新闻真实性。

（三）假设3验证

将数据来源的数量和数据质询评分两个变量做相关分析后发现，Pearson相关性的值为0.127，属于弱相关，表明这两个数据的相关性不显著，因此，假设3不成立。

四、讨论与结论

将上述分析与论文1中部分内容进行对比，发现假设1与论文1的结果相似。论文1中显示“网易表现最优（全部交代数据来源）”和网易《数读》栏目达不到“样本中的绝大多数应该是描述清晰的”这一假设，与本文中假设1“全部交代数据来源但超六成数据来源交代模糊”的结果相同。假设2关于数据来源的机构单位样本数，假设1非政府组织数据占比大与论文1中呈现的“使用最多的数据来源是非政府数据”相一致。假设3中数据来源的数量与数据是否进行质询之间不具备明显相关性。

综合以上，笔者发现，尽管网易《数读》栏目的数据新闻所有的样本都标注了数据来源，确保数据“有章可循”，但实际上，这些样本作为新闻的一种报道形态，在新闻真实性上依旧存在以下风险：

第一，大多数数据新闻单纯发挥传播“结论”的作用——搬用单一数据源提供的数据进行可视化处理，对“信息”真实性的把握主要依靠“权威”渠道来控制，其中对国外非政府组织这一信源依赖程度最高。在总样本中，一半以上的数据新闻只存在单一数据源，近8成的数据来自于国外机构，没有自采型数据。

第二，媒体本身对数据新闻真实性的把控较弱，在数据处理的问题上没有进行加工使用，同时多种信源交叉印证上做的不够好。数据处理问题上，79%的数据直接展示数据数值或内容，成为了数据的“搬运工”。进行多样性统计加工的数据新闻较少，数据源数量与数据处理之间呈现弱相关。

第三，很大一部分的数据来源描述模糊，原始数据的缺位使得读者无法通过阅读原始数据及研究方法等自行验证真实性（多条数据新闻的评论中出现读者发问“数据怎么来的？”）。

当然，以上风险中有本身存在一个国内数据源公开的程度问题，这也使得网易数据新闻在某种程度上较难实现信源平衡等问题。

参考文献：

[1] 张倩.网易数据新闻“数读”解读[J].新闻世界,2016(6) :56-58.

[2] 陈昌凤,王宇琦.公众生产信息时代的新闻真实性研究[J].新闻写作,2016(1):48-52.

[3] 方洁,高璐.数据新闻:一个亟待确立专业规范的领域——基于国内五个数据新闻栏目的定量研究[J].国际新闻界,2015(12).105-124.

[4] 郎劲松,杨海.数据新闻:大数据时代新闻可视化传播的创新路径[J].现代传播,2014(3):32-36.

(责编：宋心蕊、赵光霞)

网易《数读》栏目数据新闻的真实性研究

相关推荐