颠覆新闻媒体行业 从数据科学开始
编译丨科技行者
企业对AI科技的应用不断增长和扩张,AI开发人员也在努力证明机器学习为不同业务区间增加价值的强劲能力。可以想见,作为一个关注以文本及视觉形式交流思想的行业,新闻业必然要积极采用数据科学工具与技术以支持数据分析及可视化。
《纽约时报》自2012年起就建立起数据科学小组,但这支队伍经过近十年的发展才刚刚走出实验阶段,开始在企业之内扮演重要角色——即通过机器学习增加价值。《纽约时报》数据科学总监Colin Russel运用自己在预测建模与设计方面的深厚背景,配合机器学习算法将《纽约时报》的大量数据融入模型及可视化体系当中,借此为各个部门提供有力支持。
AI应用
《纽约时报》已经投资建立起多支机器学习团队,将数据科学、数据分析与工程等要素结合起来。这些团队又具体分为不同的数据科学小组,一部分面向新闻编辑室工作、一部分面向团队营销、也有一部分负责各类业务运营。虽然各个小组分别只面向企业整体业务中的特定方面,但他们都在努力构建起一套统一的机器学习平台,将所有彼此重叠的部署与基础设施开发成果集中起来以供整体使用。
在传统上,由于存在明显的利益冲突,新闻编辑部及编辑业务往往与企业业务部门互不往来,在创收活动及新闻活动等工作上也明确保持分离。由于这种分离,大型企业在AI领域的探索往往面临挑战,特别是难以在AI实施的流程与目标方面进行清晰且持续的跨部门沟通。
但面对阻力,《纽约时报》仍努力将运用数据推动决策及洞见的习惯在整个组织内传播,着力通过数据分析制定业务决策、培养新闻与编辑洞察能力。在如今这个多数人每天通过社交媒体获取新闻的时代,新闻编辑室自然也需要关注数据、把握《纽约时报》受众的兴趣所在。同样的,运营部门也高度关注数据驱动型洞见,希望提高广告宣传效果、向读者提供优化内容,并提升各类运营及产品宣传的可见性。
AI技术
虽然不少企业选择AI工具外包,但《纽约时报》更强调原研开发而非直接购买。AI技术的实施往往不是项目中最困难的部分,真正的挑战大多来自在数据设计、组织及操作层面进行有效建模。遥想立项之初,数据可谓无处不在,数据科学家只能从浩如烟海的记录当中逐一收集来自企业内不同部门的凭证。数据获取难度再加上确定适用于模型的具体数据内容,反而令AI的具体实现技术成为相对简单的部分。
由于企业内不同部门间的关注重点与优先事项各不相同,因此AI开发者必须弄清楚如何在相互竞争当中取得平衡。《纽约时报》最近进行了一轮大规模整改,希望能将数据整合至云端。如此一来,他们就能从零起步,轻松上传不同部门的后续数据。
应对变量
数据科学与机器学习模型都要经历验证与评估过程,旨在衡量基准性能并测试开发中的模型、确定还有哪些改进空间。AI应用的一大难题,在于很难量化目标并选定需要优化的指标。在新闻与杂志行业,新闻周期本身就存在巨大的波动性。例如,新冠疫情给企业带来了突如其来的冲击,要求民众随时都能免费访问疫情趋势的相关新闻。这意味着原本以吸引付费订阅用户为核心的业务体系,突然就具备了某种程度的公共服务属性,甚至需要在发布大量可以免费访问的信息。这些都是新闻行业以往从未面对过的态势。
另外,某些特定推荐算法在不同类型的新闻周期中反应更好,因此需要根据协议对模型进行重新训练,确保模型性能与新闻周期密切关联。为了评估模型质量,数据科学团队需要充分评估新闻周期与环境影响,这一切又延长了模型的筹备时间。目前Colin和他的团队正在努力攻克不同新闻周期中适用使用哪些模型这道现实难关。
对于任何企业,AI与机器学习算法的实施和应用都绝非易事,与之对应的技术、指标及数据确认工作同样复杂异常。