【优先发表】智能审校的应用和探索——以“方正智能辅助审校系统”为例

优先发表

DOI | 10.19619/j.issn.1007-1938.2020.00.050

摘要 | 文章分析了常见智能审校软件的不足,简要回顾了方正电子研发智能审校系统的背景,并从产品定位、优势特点、功能设计等方面进行了较为详细的阐述。

关键词 | 智能审校;数字出版;知识服务

固定布局                                                        
工具条上设置固定宽高
背景可以设置被包含
可以完美对齐背景图和文字
以及制作自己的模板

随着互联网技术的迅猛发展,我国出版业正在经历数字化转型升级的重大变革。由于出版种类和数量的大幅增长,传播渠道的多样化,知识替代和更新的日益加速,以及中国语言文字的灵活性等原因,编校人员的审校工作难度越来越大。而内容质量又是出版物的灵魂所在,如果完全由人工进行编校质量把关,势必影响工作效率。智能审校软件的使用,可缓解编校人员的工作压力,但仍有其局限性。这就需要从内容、技术、服务相结合的角度进一步对智能审校工作进行分析和研究,通过计算机算法提高审校内容的准确度。

一、现有智能审校软件的不足

当下较常见的各类智能审校软件具有校对速度快、查全率高的优点。同时,计算机算法通过大量的语料训练以及知识术语库的集成,能够在审校时有效提供知识类错误的核查,如术语的规范性、纪年的准确性等, 有效降低审校难度,节省编辑加工时间。但是目前审校软件的核心还是基于词库、规则以及自然语言的理解技术[1-2],最终要呈现出较好的校对效果,需要一定的工程化能力将算法与词库有机地结合起来。总体而言,常见的各类校对软件在检查字词错误方面效果较好,但仍然存在着诸多不足。

1. 校对维度相对简单

当前校对软件仍旧主要停留在对字词输入型错误的检查,如检查文字输入或OCR 识别时发生的错误,检查效果较好。但针对字词本身无误但是在语句中用错现象的检查效果不佳,比如易混淆词误用或者用词搭配不当时,就需要人工干预,结合上下文语境进行明确地判别。

2. 误报较高,对用户造成的干扰较大

现有的校对软件,使用过程中常常出现大量的误报,甚至会出现数十个错误中只有一个真正的错误,用户需要逐个阅读判别, 工作总量实际没有明显减少,这也是校对软件被大家诟病的原因之一。[3] 一个理想化的审校系统应是查全率足够高、精确率足够高、误报率足够低。但现有的系统一般精确率高, 查全率就相对较低,始终存在“跷跷板效应”。如何在两者之间寻求平衡,将算法与词库完美结合,是校对软件需要共同面对的课题。

3. 字词审校之外的能力偏弱

编辑加工不仅仅是对文字进行编辑,还需要对稿件进行修改、润饰等。如需要对稿件进行整理,使其结构清晰,需要对引文等内容进行查证求实,同时还要审核排版格式规范等,字词的审校往往只是其中很小的一部分工作。审校软件在这些方面显然是力有不及的。

4. 普适性较低

仅就字词本身的审校而言,不同的领域及学科需要不同的语料及词库进行支撑。由于语料库建设的复杂性,一款软件很难在各个领域都具有普适性,进而导致在不同用户那里可能获得不同的评价,甚至是迥异的声音。

二、方正电子在智能审校领域的探索及产品定位

北京北大方正电子有限公司(简称“方正电子”)服务于印刷、传媒、出版、大数据、字库等领域,为客户提供信息处理技术、产品、解决方案和增值服务。作为中国现代印刷与现代传媒技术革命的开创者,继激光照排、远程传版、彩色出版系统及新闻采编系统之后,方正电子持续推动行业发展。在出版及传媒领域,方正电子提供从内容资源加工、内容编纂流程管理、内容资源管理到数字内容产品多渠道、多介质发布的全流程数字出版技术,同时利用移动互联网、云计算、大数据、人工智能等新技术,聚焦内容生产, 提高出版质量。具体到智能审校领域,方正电子针对目前智能审校系统的不足,从内容、技术、服务相结合的角度进行了业务分析和技术研究。

自2010 年开始,方正电子开发的校对软件可对稿件内容进行自动化预处理,如格式识别及纠正、稿件自动结构化识别以及各种专项检查。到2016 年,校对软件对科技、社科类图书以及学术期刊的智能化识别率已达到90% 以上。同年,历史纪年、参见落空等各项专项检查技术也正式用于《辞海》的生产系统。2018 年初,全新的“方正智能辅助审校系统”(简称“方正审校”)开发团队成立,方正电子大数据算法团队和国家数字出版重点实验室共同参与到该系统的研制之中。主要任务是通过机器学习、大数据技术对文本中的错词、病句、专有名词、量和单位、数字、连词符等内容进行分析提取,并进行内容及用法层面的校对。除此之外,针对传统技术优势,强化对参考文献中的标题和作者进行格式识别,支持对内容知识点的检查, 比如组词、套词以及历史纪年等。同时,对段落语句通顺度进行分析打分,对低于一定分值的段落句子进行标识,等等。通过一系列的探索,方正审校基于自身的技术优势以及对出版业务的了解,试图重新定位智能审校系统。

方正产品定位清晰,即通过智能审校系统提高出版物质量和稿件加工效率,降低企业成本。在当前人工智能发展的大背景下, 一款智能的审校系统不应仅仅局限于传统的字词审校,而是要服务于整个出版生产周期。方正审校的目标包括:第一,针对图片、表格、数学公式的序号,能够自动进行大纲检查、序号连续性检查、引用落空检查;第二,自动进行知识点检测,并内置《辞海》等一系列权威工具书,快速进行检索比对,无需人工翻阅纸质版工具书;第三,一键识别各类公式,将不规范的公式自动转换为标准公式;第四,对字词的审校更为精准,基于人工智能的错词病句检查融入语境进行分析,最大限度降低误报率。

三、方正审校的优势与特点

与其他审校系统不同,方正审校采用云服务的模式提供更好的产品体验与售后服务, 同时采用全新的商业模式,和出版机构共同打造中文内容审校生态。总体来说,该系统有如下特点。

1. 功能及定位差异化

除错别字、敏感词、标点符号等较为通用的审校功能外,可对稿件中的相似及重复内容,大纲标题及序号,图表公式序号及参见落空、列表序号,公元纪年、历史纪年等错误进行检查,还提供一系列服务性工具, 可进行图像管理、公式智能识别等,解决编校人员在稿件加工过程中面临的一系列问题。

2. 审校速度快,审校结果更准确

方正审校的审校速度极快,一般情况下单篇10 万字左右的稿件可在3 分钟之内完成。同时,方正审校在研发之初就以降低误报率为设计目标,通过机器学习算法和一些工程化的手段控制误报率,尽可能减少误报给用户带来的干扰。目前方正审校的精确率和误报率均控制在30% 以内,在审校结果和用户体验上达到了一定的平衡。后续,系统将始终以每月一迭代的周期进行完善。

3. 更好的交互性

方正审校提供插件客户端、平台端两种审校应用,支持对“doc”“docx”“pdf ”“nps”“mps”“nps”“s92”“s10” 等格式的文件进行审校,覆盖稿件预审、加工、排版、质检等多个环节及应用场景,可满足作者、编辑、校对、排版员等多个角色的使用需求。

采用客户端插件模式,审校完成后,系统提供勘误表面板,可实现版面与勘误表的双向定位,并支持一键修改操作,方便用户快速定位与修改。

采用平台审校模式,可启动大样文件和PDF 文件进行审校,不需安装多个客户端和插件,审校界面简洁直观,提示信息清晰明确, 相关流程及功能操作简单易懂。审校完成后, 会提供审校报告和含错误注释的高版本PDF 文件,用户按需获取即可。

4. 词库语料库共建机制

方正电子和出版机构共同打造内容审校生态系统。在各学科领域,方正审校积极与各专业出版机构合作共建词库和语料库,推动提高产品在各学科的审校能力。

5. 完善的反馈机制

方正审校系统根据用户的误报反馈,不断收集用户建议和新需求,及时对审校模型及算法进行优化完善,以快速迭代的开发模式保证产品的推陈出新,让用户在第一时间体会到审校性能和效果的不断提升。

6. 系统永久免费升级

方正审校有专门的运营团队,每天对审校词库和语料库进行维护更新,更新后即可生效,无需更新任何程序,客户端有新版本后自动提醒一键升级。无论是免费用户,还是收费用户,始终能够使用最新的版本,且没有任何升级费用。

7. 安全性保障

云服务最重要的是数据安全,用户数据的安全性与隐私保护是方正审校首要考虑的问题。方正审校已通过国家信息安全等级保护三级认证,根据认证标准制订统一安全策略,以确保及时发现漏洞,免受外部恶意攻击。在数据传输和存储方面,采用了行业标准的加密协议。如在传输过程中基于HTTPS 的安全通信协议进行加密,数据存储时采用非对称加密算法进行保护,采用分布式存储方案, 以确保除用户之外,任何人不能访问其文件。同时,还采用IP 异常校验、手机短信验证的方式确保用户账号信息安全。

8. 专业的售后团队支持

无论是注册用户或收费用户,方正审校均可提供专业的售后支持。针对收费用户, 安排专属的客户支持经理,提供培训及其他服务。

四、方正审校的基础功能

方正审校自2019 年12 月30 日正式推出试用以来,全国注册并使用的出版机构用户已达500 多家,日均调用审校服务6000 余次。审校系统主要对稿件进行多维度检查,包括逻辑体例及大纲、字词内容、版面格式以及知识性错误等,同时提供一系列专项处理工具。产品功能及架构见图1。

图1 方正审校的基础功能及产品架构

1. 字词检查

方正审校中包含常见的错字库和正词库, 可多维度对语句进行检查及校正,提高准确性。多层自定义库是方正审校字词检查功能的另一特色。除通用词库外,还为出版机构提供机构词库和个人词库,机构可以针对自身的行业特性构建词库。如“噪音”在建筑出版领域一般称“噪声”;“双胞胎”在医学领域的规范用语为“双胎”。用户可以根据自己的出版特性,定义自己的词库,并随着使用次数的增加逐步打造适合自己的审校系统。同时,还针对不同行业,建立相应的专业性词库,实现稿件的自动分类,让系统更加智能化。

2. 逻辑检查

与传统校对工具相比,方正审校在研发初期就注重差异化功能。比如逻辑检查,该模块基于方正电子多年来积累的内容结构化技术,将稿件内容按篇、章、节进行内容结构化,能快速发现稿件中的逻辑差错。除大纲提取外,系统同时支持图题、表题、列表以及公式的序号检查,使用该功能,能快速检测序号不连续、缺失等问题。

上下文查重也是根据编辑的反馈而及时推出的一项功能。实际工作中,编辑收到的书稿经常由多人合著或编写,会出现内容高度重合的现象。如果重复内容在书稿中相距较远,单纯靠人工查找效率低下,系统能够快速发现不当之处。

3. 格式检查

图书内容中所包含的图、文、表等常常复制或转换自不同的文件格式,因此容易存在格式不统一的情况。为了能够快速使文档规范化,方正审校系统提供了全半角转换、千分位转换、单位识别等一系列格式检查功能。如财经类图书,往往需要编辑针对书中的数字统一添加千位分隔符,人工处理需要耗费大量时间和精力,通过千分位检查就能够快速识别数字,智能化过滤一些无关的干国际符号一般采用字母的小写形式,来自人名的单位则必须用大写的正体,通过单位间隙功能,可快速识别出这些符号并统一进行修改。

4. 知识性检查

稿件加工过程中最耗时的事情莫过于知识性内容的验证,编辑需要翻阅大量工具书进行核查并反复确认。对知识性内容的校对未来会成为方正审校重点研发的功能。目前, 方正审校中提供了纪年检查,可以对稿件中的历史纪年、干支纪年、公元纪年等进行准确查验。

5. 其他专项服务

除了常见的各类审校功能之外,方正审校还提供系列专项工具,解决图书加工过程中遇到的具体问题。所以说,方正审校不仅是单一的审校软件,更是一款为出版行业定制的包含一系列加工工具的整体系统。比如说公式识别功能,由于图书稿件内容来源多样,作者手写后再拍照上传的公式,或者图片形式的公式,编辑或者排版人员录入时需要花费大量精力,利用该功能就可以快速生成可编辑的mathtype 公式。

随着版本的不断迭代升级,方正审校将提供更多有用的功能,如编委会姓名排名、拼音检查等,帮助用户解决一些具体问题。同时,还将持续不断地加强语料库的建设, 在人工和机器的干预下,确保审校功能愈加多样,愈加智能。

未来,方正审校的工作重心仍然聚焦在审校功能的优化上。在保持体例逻辑检查、格式检查等优势的基础上,持续改良,不断精进。随着智能化技术的发展,算法层面会有较大改进,同时语料库也会越来越丰富, 审校的准确度将进一步提高。方正审校还将逐步推出各项延伸服务,与诸多出版机构联手建立以内容服务为核心的共赢商业模式。

参考文献

[1] 张仰森,俞士汶. 文本自动校对技术研究综述[J]. 计算机应用研究,2006(6):8-12.

[2] 骆卫华,罗振声,宫小瑾. 中文文本自动校对技术的研究[J]. 计算机研究与发展,2004(1):244-249.

[3] 李建,高鹏. 校对工作中软件校对的优缺点[J]. 无线互联科技,2012(6):158.

(作者单位:1)2)3)北京北大方正电子有限公司)

(0)

相关推荐