媒介融合 | 智能技术驱动融合出版创新和发展

作者 | 刘长明, 高国连, 杨勇

作者单位 | 北京北大方正电子有限公司

DOI | 10.19619/j.issn.1007-1938.2021.00.054

引用参考文献格式:

刘长明, 高国连, 杨勇. 智能技术驱动融合出版创新和发展[J]. 出版与印刷, 2021(4): 78-84.

摘要 | 文章通过分析融合出版发展的方向及推进路径,提出融合出版需要结构化写作技术、文本结构识别技术、内容审校技术和多元输出技术等关键技术的支持,并结合智能协同编纂系统、基于知识图谱的知识服务解决方案、大数据服务平台等融合出版相关案例,指出在数智化时代,融合出版要运用智能技术,提升改造传统产业,促进出版业向数字化、网络化、智能化发展。

关键词 | 融合出版;人工智能;数字出版;数字化技术;北大方正

融合出版的创新和发展离不开新兴技术的驱动。2014年8月,中央全面深化改革领导小组第四次会议审议通过《关于推动传统媒体和新兴媒体融合发展的指导意见》,强调推动传统媒体和新兴媒体融合发展,要坚持以先进技术为支撑、以内容建设为根本,推动传统媒体和新兴媒体在内容、渠道、平台、经营、管理等方面的深度融合。2017年5月,中共中央办公厅、国务院办公厅印发《国家“十三五”时期文化发展改革规划纲要》,提出要推动融合发展尽快从相“加”迈向相“融”,形成新型传播模式。2020年9月,中共中央办公厅、国务院办公厅印发《关于加快推进媒体深度融合发展的意见》,指出要以先进技术引领驱动融合发展,用好5G、大数据、云计算、物联网、区块链、人工智能等信息技术革命成果,加强新技术在新闻传播领域的前瞻性研究和应用,推动关键核心技术自主创新。

一、融合出版发展的方向及路径

1.融合出版发展的方向

推动融合出版向纵深发展,是出版创新产业形态的必然要求,也是实现高质量发展的现实路径。将传统媒体的特性与数字化技术以及互联网思维相结合,才能够促进出版在生产、发布、传播多个领域融合,逐步找到和明确未来的发展方向。

融合出版发展主要体现在以下四方面[1]。一是内容生产方式的融合,即内容生产“一次制作,多元发布”;二是产品形态的融合,包括传统纸质出版物、电子出版物、音频、视频、AR/VR以及知识服务等多产品形态的融合;三是内容传播渠道和服务的融合,包括线下渠道、线上渠道,以及与物联网结合,拓宽传播与服务渠道;四是内容跨界出版,打造多元IP(intellectual property,知识产权),进入游戏、影视、动漫等跨领域内容产业。

经过多年探索和发展,出版业在业务流程优化、产品和服务创新等方面取得了重要成果,并建立起数字化内容生产、传播、服务的标准体系和规范。2020年以来,以5G、云计算、大数据、人工智能、物联网和区块链为代表的新一轮技术,带动全球进入产业数智化时代,中国出版业数字化转型也开始从数字化进入数智化新阶段。

 2.融合出版的推进路径

数字化生产平台的建设、多形态产品的发布是融合出版概念提出以来出版企业实现融合出版的重要路径。[2-3]

在推进融合出版发展过程中,核心是数字化出版平台建设,即通过出版平台将传统的出版形式进行融合,使其成为统一于数字化与互联网模式下的一种全新出版模式。

融合出版发展路径的推进,可以从内容产业链的各环节入手,包括内容生产环节、发布环节、传播环节等。比如北京北大方正电子有限公司(简称北大方正电子)开发的北大方正电子协同编纂系统从内容生产和发布入手,将传统的图书生产流程数字化,利用先进技术解决传统生产流程中各个环节的痛点,在审读、校对、排版环节通过智能审校和自动排版提升生产效率和内容质量,同时解决纸书出版和数字出版两种生产模式分离的问题,实现内容的“一次制作,多元发布”,支持快速出版纸书和发布专题数据库;从传播入手,搭建读者服务平台,通过“以书为媒,为书赋能”,利用纸质图书出版物,将读者的学习场景从线下带入线上,从单一的线下图书阅读转换为图书、课程、视频、直播等多种学习场景结合的形式。

二、融合出版需要的关键技术

融合出版通过技术对传统出版与数字化媒体进行整合,将传统媒体的优势与数字化技术相结合,所以融合出版的过程也是技术不断创新的过程。

国外对于与生产环节相关的出版管理软件技术开发较早,如PTC、Quark DP、IDM等知名软件。一些大型出版机构,如威立(Wiley)、爱思唯尔(Elsevier)、施普林格(Springer)、汤姆森(Thomson)等,很早就引用了先进的出版流程管理、协同编辑技术,全面采用了诸如基于XML数据的全流程数字出版平台。这些大型出版集团内部采取统一的数据标准和生产方式,实现数据的有效联通,通过将多种类型数据资源进行整合加工,极大地丰富了出版物的出版形态。[4]

随着行业技术的不断成熟,我国也涌现出了一批比较有代表性的出版管理软件,如启旋等,使用者大多为规模较大的出版机构。然而,一方面由于纸稿流转、人工排版的传统生产模式仍然占据主流位置;另一方面这些出版管理软件虽然能够较好地解决流程、文件、协同编辑、复合出版等问题,但对于书稿加工环节中比较重要的审读校对环节没有较好的解决方案,编辑、校对人员仍然需要花费大量时间在核对字词错误、查稿件异同等传统出版过程中比较繁重的工作上,关键问题没有得到有效解决,生产环节瓶颈始终存在。如果生产流程的各个环节无法实现智能化全覆盖,必然会影响出版企业的数字化转型。

为了解决上述问题,国内的出版机构和技术厂商正在不断努力进行出版流程和技术的创新。如北大方正电子在内容生产环节一直保持不断的投入,近几年陆续推出智能审校、同步出版等先进的技术和服务,力争帮助国内出版机构在稿件加工阶段实现“提高质量、提高效率、降低成本”的目标,为出版业加快推进传统出版升级、实现高效高质发展助力。同时,北大方正电子还与中国建筑工业出版社、中国电力出版社、东北财经大学出版社等出版机构合作开展相关研究及试验,解决了以下融合出版需要的关键技术。

1.结构化写作技术

结构化写作技术能够有效解决数字出版环境下的编辑规范问题,针对使用者在内容的创建、定义、结构和属性等方面制定严格的写作约束规则,从而形成符合标准体例的文稿,促进图书生产流程再造。在传统的内容加工生产过程中,大多数作者习惯使用Word、文本文件的方式编写稿件,这两种都是属于非结构化的文档格式,计算机无法识别其内容含义,后期无论是对该内容进行纸质文件的输出还是数字化产品的发布,都很难做到快捷高效。而且,非结构化的内容难以做到“一次制作,多元发布”。通过结构化写作技术,作者在撰写稿件内容的同时就完成了稿件的结构化,有效杜绝了现有非结构化内容文件在出版流程中经过多次转换导致的内容差异问题。

2.文本结构识别技术

结构化写作技术是通过人为写作或编辑的方式将非结构化的文本内容结构化,而文本结构识别技术则基于自然语言理解技术对文本进行分词、词性标注、结构识别,将人类语言转换为计算机能够识别的语言。通过该技术,能够有效地处理大量历史文档,在生产过程中,不需要改变原有作者和编辑的内容生产方式,即可实现稿件的结构化,因此更容易被使用者接受,从而降低了数字化出版平台的使用门槛,推动了数字化生产平台的普及。

3.内容审校技术

内容审校技术是利用人工智能相关技术,如机器学习、大数据、自然语言处理等智能化方法,基于前沿深度神经网络的纠错模型,对审校场景进行深度分析,针对不同类型的错误特点,通过不同的算法模型进行纠错。它可以模拟编校人员对文档进行体例、字词、知识点等多维度的检查,如文章逻辑检查、上下文查重、易错词检查、敏感词检查、连接符号检查、全半角检查、千分位检查、格式审查、知识性审校等一系列智能审查与处理,提高了内容加工的效率。同时,它还能将图书编校中常用的各种编校知识,以及图书编校中常见的逻辑性错误和知识性错误,整理收集形成编校知识库,并结合用户真实使用的反馈数据,利用数据增强技术,持续增强模型的纠错能力,形成良好的自我学习能力。

媒体融合给编校人员带来的直接挑战就是待处理内容的数量大幅度增加。除传统的纸媒外,还需要对容易出问题的音频、视频等新媒体内容进行快速审查,这就要求内容审校系统不仅能够支持文本审查,还需要支持对图片的审查,如能够自动识别涉黄、暴恐、政治敏感、公众人物、广告、不良图像,支持对图片相似度检查,识别图片中的文字,并审核其是否包含垃圾信息、敏感词;自动识别包含色情、暴恐、政治敏感、违禁品、违规广告内容的音视频,并对音视频中的语音、画面中的文字内容进行色情检测和过滤,以保证内容的安全性。

4.多元输出技术

多元输出技术是指通过出版引擎支持将结构化文件同时输出PDF、ePub、XML、HTML等多种格式的文档,实现“一次制作,多元输出”,满足传统纸书、移动阅读、知识服务等多应用场景。该技术利用结构化算法对非结构化内容进行自动分析,通过识别稿件的文件结构,如稿件的题目、各级标题、正文段落、表格和表题、图片和图题以及公式和公式序号等内容元素,实现数据结构化的同步出版。该技术能够自动修正背题、留白等常见的排版问题;在表格排版中,单元格列宽能够基于表格内容自动调整;在试卷的排版过程中,能够自动识别选项内容长度,智能化确定系统各选项单元的排列结构,从而保证版面的美观大方。多元输出技术的出现改变了目前传统出版和数字出版相对独立运行的现状,真正实现了一次制作同步输出多种形态产品,极大地提升了出版效率。

除了以上四种融合出版中使用的关键技术,还有一系列技术支撑着出版的内容管理、内容发布等环节,如大数据的采集与存储技术、跨媒体检索技术,以及一些基本算法,如语义分析、名词提取、词性分析等。

三、融合出版应用案例

融合出版的发展需要内容与科技的深度结合。通过技术创新和集成将智能技术与选题策划、编辑加工、复制、传播等有机结合,为出版业提供更好的产品和服务。以下将介绍几例融合出版在智能内容生产、内容多形态发布及传播方面的创新应用案例。

1.智能协同编纂系统

智能协同编纂系统可通过智能化辅助生产工具和业务管理平台,优化整合审稿、编辑加工、排版、校对等流程,提升生产效率,提高内容质量,降低生产总成本。该系统的应用,不仅能为出版企业开源节流,还能够有效保障图书内容质量,助力出版企业为读者出版更多的精品图书。

2020年年初,新冠肺炎疫情暴发,为了增进大众及有关行业人员对新冠肺炎这一新型疾病的认识和理解,指导个人预防,降低传播风险,科学防疫,中国协和医科大学出版社紧急组织编撰了《协和新型冠状病毒肺炎防护手册》。北大方正电子利用智能协同编纂系统,为该书的编辑、排版、校对、发布提供辅助支持。从选题策划开始到内容编纂、审稿和编辑加工,以及完成排版、校对,再到发布微信公众号推文、ePub电子书、PDF在线阅读等多渠道、多形态传播形式,仅用了六天时间。

如何做到既能高效地进行图书生产又能保障图书内容质量,智能协同编纂系统提供了一整套解决方案。该系统将人工智能技术应用到编、校、排全流程生产中,在审读、排版、校对环节分别引入了智能审校、同步出版服务以及智能对比工具,将平台管理与智能化工具相结合,在实现传统出版生产方式向数字化转变的同时,通过技术手段辅助编校人员解决了绝大多数文字性差错,并实现了多种格式输出,为数字化的加工提供了有力的保障。该系统具有如下特点。

(1)提升稿件质量

系统中的智能审校工具能够帮助编校人员快速定位稿件中的错误,减少编校人员的工作量,提升检查效率,提高稿件的质量。

(2)降低生产成本

系统中的同步出版模块能够支持体例规范的图书进行自动化排版,提升排版效率,降低排版成本;同时可以输出ePub、XML等电子文档,降低图书后续数据化的再加工成本。

(3)提高图书管理水平

通过系统,图书生产链上的编辑、校对、发行等环节能够快速有效地进行沟通,及时了解选题所处的进度,降低沟通成本。同时,通过系统对业务流程进行管理及统计分析,再加上辅助生产工具的赋能,可以大大提升图书出版业务流程的运行效率,降低业务处理时间,提高信息和业务管理的实时性和透明度。

(4)促进生产流程再造

应用智能协同编纂系统,还可以从新的角度重新审视并重构现有系统中的业务逻辑关系,使业务开展更顺畅、稳定、安全、可靠。

由上可见,智能协同编纂系统的核心在于智能审校和同步出版。智能审校采用自然语言处理技术和内容结构化技术,并结合大量语料训练,具有字词、格式、逻辑、知识四大类审校功能,能同时提供一系列辅助工具,具备图表处理、公式识别、编委会成员排序以及多稿件查重等专项处理功能。其应用可贯穿从作者提交稿件到审稿、编辑加工、排版、校对,再到印前PDF检查整个图书编辑工作的全流程。同步出版通过智能结构化技术可自动识别Word文档的篇章节结构、图表公式等内容元素,实现文档内容自动结构化,并通过自动排版引擎输出PDF文件,以及符合DocBook5标准的XML文件、面向移动端的ePub文件,实现内容的同步出版以及多形态、多渠道发布,同时还能保障不同文件格式间内容的统一性,避免传统出版流程中多工序加工导致的内容不一致。

2.基于知识图谱的知识服务解决方案

产品形态的融合,不应仅仅停留在传统出版数字化的初级阶段,比如将传统纸质图书改编成电子书、有声书、视频等,而应通过将出版内容碎片化、结构化,构建基于知识图谱的知识服务类产品形态。

北大方正电子利用自然语言处理、知识图谱、数据挖掘等技术,帮助专业出版社构建数字化知识体系,打造面向不同领域基于多应用场景的知识服务产品,如专业数据库、特色数据库、知识问答、数字图书馆、移动App、微信小程序等多终端应用,为知识加工、知识管理、知识生产、知识应用、知识服务运营等提供技术支撑。目前,已被应用于中国人民公安出版社“中国警察智识数据库”、上海辞书出版社《辞海》(网络版)、中国质量标准出版传媒有限公司(中国标准出版社)“标准知识服务系统”。

以上海辞书出版社《辞海》(网络版)为例。《辞海》是我国唯一的一部以字带词,集字典、语文词典和百科词典等于一身的大型综合性辞书。《辞海》(第七版)于2020年8月出版,网络版同步上线试运行。在纸质版基础上,网络版充分使用各种图片、音视频、动画和三维立体模型等多媒体资源,构建了一个有声、有色、有形的立体百科。有业内人士评价,《辞海》(网络版)不仅是让传统出版行业耳目一新的数字化产品,也是知识查检方式的一次颠覆性变革。该平台主要包括以下四部分。

(1)数字内容资源管理系统

上海辞书出版社拥有百余部优质工具书、上百万经过专家精心编撰的词条内容,这些珍贵的信息需要在网络环境下更好地服务广大读者。工具书数字内容资源管理系统实现了工具书成品管理、词条资源管理、多媒体资源管理等功能。

(2)工具书内容分发系统

工具书内容分发系统可对不同类型的资源按照主题等进行组合,生成适用于不同用户要求、不同应用终端、不同内容专题的工具书数字产品,并可支持在线数据库、镜像数据库、App产品、H5产品等发布。

(3)工具书产品运营支持系统

工具书产品运营支持系统通过用户管理、运营数据分析、内容营销策略管理等运营支撑模块建设,利用互联网更好地为用户提供权威、专业的知识服务,树立《辞海》的互联网品牌形象。

(4)云平台

云平台是整个项目的核心,是《辞海》(网络版)面向读者的窗口,建有网页版、App版、微信版、PC版等各种版本,可实现随时随地使用。

《辞海》(网络版)是在工具书专业出版领域进行多样化知识服务运营的成功实践,它颠覆了传统工具书的使用方式,重新定义用户与工具书的关系,为用户提供实用、便捷、可靠的知识服务体验。

3.大数据服务平台

数据是关键的生产要素,未来出版业从内容选题、内容生产到产品营销、内容分发都将依托数据决策。数字平台的构建将依据用户画像来进行选题和内容策划,实现内容分发智能推荐和智能监测。

大数据服务平台利用数据采集、数据挖掘、数据分析等关键技术,对内部内容数据、营销数据,以及外部社交媒体、第三方渠道、电商数据等进行整合分析,为出版社选题策划、市场分析、营销决策以及内容智能分发等提供技术支撑,提升出版社选题决策水平,实现精准营销。

2020年,北大方正电子与内蒙古出版集团合作,建设开发了“草原文化大数据平台”。该平台以挖掘、研究、传播草原文化为目的,运用海量信息处理技术采集和分析出版物内容资源、用户行为数据、营销数据,构建内容画像、用户画像,打造“互联网+”模式下的集生产、营销、互动、传播等为一体的应用平台,为出版集团提供智能预测分析、出版决策依据,最终为读者提供更加丰富的精神和文化产品。

草原文化大数据平台由出版大数据采集及分析系统、大数据大屏展示系统、出版大数据应用系统组成。出版大数据采集及分析系统可实现各种数据源的采集接入和存储,对采集的原始数据进行数据清洗,并基于清洗的数据提供多维数据分析。大数据大屏展示系统可展示内容数据、销售数据以及用户行为数据,出版集团决策者和成员可通过仪表盘了解整个集团的各类数据情况。出版大数据应用系统基于多种数据分析算法和模型,为集团提供综合分析、市场分析、选题策划以及营销分析等服务,并且提供面向不同角色的数据仪表盘。平台围绕图书和选题两大核心,在采集外部数据的同时,重点加强对集团内部运营情况的采集和分析。将从集团内部电商平台、ERP系统以及第三方平台中采集到的原始数据,经过去重、去噪、归一化等清洗处理,应用数据分析引擎对图书基本信息、商品信息、用户行为数据、社交媒体数据等多维度信息进行分析,提供选题热点分析、传播分析、营销分析等可视化数据应用和分析报告,为编辑选题策划提供强大的数据支撑。

四、结语

融合出版在经历了以“互联网+”产品和服务创新转型为核心的数字化阶段后,现已进入以大数据、人工智能驱动的数智化时代。从产业维度看,标志着数字化转型从“互联网+”时代进入到“智能+”时代。“智能+”代表着数字技术发展的新阶段和新维度,是智能技术与产业深度融合的过程。“智能+”时代需要更多地针对产业运用智能技术,大力改造提升传统产业,将数字技术与传统产业深度融合、多场景融合,打破单一产品服务模式,在内容生产流程中全面利用数字技术进行多角度、全链条改造提升。

数智化时代需基于创新技术和大数据,来优化资源配置,提升全要素生产率,实现供给侧和需求侧改革。随着智能技术的发展,融合出版进入新时代,出版业必将迎来数字化、网络化、智能化的未来。

参考文献

向上滑动阅览

[1]杨西京. 如何推进传统出版与新媒体融合发展[J]. 科技与出版, 2014(11): 8-10.

[2]马晓俊. 基于数字化技术和互联网思维的融合出版[J]. 新闻传播, 2017(3): 6-7.

[3]曹继东. 基于数字化技术和互联网思维的“融合出版”[J]. 科学与出版, 2014(9): 15-18.

[4]李艳华. 出版融合: 产品形态、核心任务与技术路径[J]. 中国传媒大学学报(自然科学版), 2020, 27(3): 60-63.

Title : The Innovation and Development of Integrated Publishing Driven by Intelligent Technology

Author : LIU Changming,  GAO Guolian,  YANG Yong

Author Affiliation : Beijing Founder Electronics Co., Ltd.

Abstract : By analyzing the development direction and promotion path of integrated publishing, this paper puts forward that integrated publishing needs the support of key technologies such as the structured writing technology, text structure recognition technology, content revision technology and multiple output technology. Combined with the relevant cases of integrated publishing such as the intelligent collaborative compilation system, the knowledge service solution based on the knowledge map and the big data service platform, it also points out that in the era of digital intelligence, integrated publishing should use the intelligent technology to transform and enhance traditional industries and promote the digitalization, networking and intellectualization development of publishing industry.

Keywords : integrated publishing; artificial intelligence; digital publishing; digital technology; Founder

编辑:许彤彤

审核:靳琼 熊喆萍

(0)

相关推荐