演讲整理全文丨钱毅老师:智慧档案馆发展路径与技术层级分析

周一到周五,早上6:00见

兰台之家推荐搜索

智慧档案
电子文件
数字档案
应兰台之家的全国各地档案伙伴要求,小融整理了钱毅老师的演讲,全文仅供参考、学习,有任何问题敬请留言,有不足之处,请批评指正。演讲相关视频请查阅“知网在线教学服务平台”,感谢主办方为全国各地档案工作者带来的学习机会。
温馨提示:后期相关课程演讲,如果大家对全文整理有需求,敬请留言。小融将根据留言反馈情况,收听并进行整理演讲,感谢大家的理解和支持。
劳动最光荣

今天跟大家在交流智慧档案馆的发展路径与技术方面一些问题。

我是长期从事档案领域跟技术领域的交集。我自己讲,在夹缝中求生存,所以从好的方面讲,我们需要有复合的知识结构,但是不客气的讲,在两个方面我们都有半罐水,所以实际上今天讲的时候,可能还会有很多地方,我觉得还是经不起推敲,但是我想通过分享自己的观点,同全国各地的档案同行来交流。

今天的话题分四个方面:一个是背景,我想大致介绍一下现在档案管理发展的背景。这一点其实昨天前天张院长在讲的时候,已经讲得比较多了,所以我这里只是做一点补充。

第二个就是讲我们信息化发展的一个路径,就通过这个路径,我们来了解我们现在要从哪里来,我们要到哪里去?同时通过这个路径,我想大致明确一下,我们各自部门所处的阶段,所以承上启下,了解一下我们做了哪一些,未来要往哪发展。

第三和第四讲的是我个人的一些观点,大部分的观点我可能都以文章的方式进行了表述,所以在这里通过这种方式,我想再系统地介绍一下,一个是我对档案对象的一种认识,我把它归结为三种态度。另外,就智慧档案馆来讲,我们有一个发展的路径,这个话题其实非常大,其实我接触智慧档案馆的概念,我觉得也有几年的纠结,在这之前几年,我其实是不太容易承认观点的。但是随着这几年的发展,我们也看到了各种技术,尤其我们称之为智慧技术的发展,它的路径相对来讲逐渐清晰起来。所以就这一点,我想把我的这些观点,给大家做一点分享。

我们开始讲第一部分,第一部分是我们整个现代管理发展的一个背景,我这里把压缩成了两大方面,第一个就是数字转型的背景,这个数字转型一提到转型,这我们都知道,就是说我们现在所处的状态和后面要达到的状态是不一致的,所以我们要转。

说到数字转型,需要了解两个概念,一个就是我们经常讲的模拟,我后面会经常提到这个概念叫模拟状态,还有一个叫什么?叫数字状态,而这方面的研究不仅仅是我们这个领域,早在整个社会领域,整个IT大规模的在开展这方面的研究。所以这里我通过这个图片来给大家介绍一下,我们讲的数字宇宙,这个数字宇宙是当年emc公司现在好像转给IDC的咨询机构来长期做的这么一份白皮书报告。

从本世纪初开始,他们基本上每年都会发布一些报告,所以其中大部分都是以图示的方式来表示我们社会,我们整个现状,甚至我们包括我们整个的地球,都在朝着这种数字化的方向在不断的发展,所以经常用一些图来表示,表达一个数量关系。这里我就不展开介绍了。

其中这个报告里面,几年前他们提到一幅图,我觉得比较有意思,我也经常在各种场合用这个图来表示,我们就要转的一个必要性,这个图画了两条曲线,一个是绿颜色的,我们把它叫做原生电子文件的这么一个量,大家可以看到它的发展曲线是非常陡峭的。

另外蓝颜色这一块我们所讲的模拟,其实模拟和数字我这里比较做一个简单的概念上的解读,我们的模拟信号,我们人平常所能接收到的连续的波。比如说我说话的声波,我们眼睛能接收到的光波,它是连续的信号,那么数字我们可以理解为是一种离散的二进制信号,所以通过模拟调制成数字信号,变成我们可以用计算机的方式来进行解读。

之所以有数字转型,我们的根本目的是想借用计算机的能力,来帮助我们做数字信号的各种处理,从而获得我们在模拟环境下不具备的很多能力。所以这也是我们大规模各行各业可以这样讲,争先恐后。这个趋势我想未来还会存在很长一段时间。

当然这里面存在一个悖论,人是模拟动物,人只能接收模拟信号,让我们转成大量的数字信号,归根结底,还有以某种方式为人所感知。所以这也是我们现在信息化发展中回到头我们要解决的一个问题。所以我记得当年一个以色列作家曾经写过一本书,他曾经说过,也许未来的人会异化到我们生物科技各种间断技术发展,我们人可以直接接收我们一定的数字信号。这个角度上讲,他说未来的人就是我们现在理解的神。

那么有了这么大的一个时代命题,就像一份专业题一样,用现在比较流行的方法来讲的话,我们就要做作业。这里也交代我的一个观点,就是我理解我们的档案信息化,从本质上讲,我把它理解为是一个从模拟空间向数字空间迁移的过程,这个过程应该讲非常漫长,所以不仅仅是一个扫描数字化的问题,我们很多同行都深有体会,光扫描仅仅是第一步,怎么管理?怎么治理?甚至于我们现在很多人工智能领域还提出某些伦理,说明重建重构很多的相关的规则和秩序。

所以这方面我们挑几个我们认为有典型意义的国家来进行讲解,比如美国,我们经常讲到英、美、加、澳,确实在电子文件、电子档案管理方面走的比较靠前,我们看看他们是怎么做的。那么在这个国家层面上去讲的时候,我觉得还是非常有必要把各个国家的大的区别先点出来了。

从美国来讲的话,他们就要求一个典型的标志,当然从某种意义上讲,我们觉得比较激进,比如他们要求从去年年底开始,就有尽量以电子的方式进行接收,而且最近也越来越明确。

首先看美国的情况,他们就提了很多要素,包括体制性的战略、性的要素,我这里要尝试用讲故事的方式,把美国的事儿简单串一下。

同样我罗列了几篇文章,帮助大家了解典型事件,印象比较深的是在当年美国出现了一个官司。关于官司的细节,大家可以看国家档案局副局长付华的一篇文章,他对官司做了一个非常详细的解读,大致的意思是当年的白宫老布什新任,里根下台的时候,白宫的官员把邮件给删除了,但是他们有打印版,但这个问题后来被人告上法院,出现了纠结的一个点,就在于当年的美国所谓的档案局,他们的保管期限表当中,归档范围保管期限表当中,对电子邮件没有明确的一个处置规定,所以导致白宫的官员以此为理由做了一定的处置。

虽然这个官司曾经有一段时间是白宫败诉,但最终和解了。前前后后打了10年。这10年因为有这么一个官司的原因,我们都知道,美国是英美法系,是判例法为主,所以有这么一个案件之后,他整个就非常重视,在某种意义上,这就相当于承认了至少是电子邮件的法律效力。因为有这么一个法院的判决,所以实际上是未雨绸缪,在90年代做大量的规范建设,有规章的建设做基础,按我们的话讲标准先行。

所以在90年代末,他们就开始启动了ERA的建设。大家可以看,国家档案局原法规司司长王岚曾经写过这么一篇文章,ERA从立项到开始正式建设前后花了6年时间的预研,然后参议院投了3亿美元,从2005年建到2011年,花了6年时间把ERA建成。期间其实经历了一个非常重大的事件,叫《萨班斯法案》。其实在某种意义上讲,它实际上是对文档管理提出了一个非常高的要求,以至于其中关于文档管理的条款被我们戏称为叫萨班斯惨案,所以实际上讲就是说我们要保证每份文件的这种真实,完整,要经得起审核。所以很多当时大公司,尤其在美国上市的公司,不管是美国的还是我们其他国家的,因为《萨班斯法案》,要大量改造他的文件管理系统,所以在全社会很大程度上普及到文件管理的很多概念。当然了,光建好系统,比如说2011年建好系统,就像我们很多单位建好了系统,但是不一定所有单位都很积极的去用一样。

所以奥巴马曾经在2011年发了一个文件管理指令,以总统备忘录的形式发布,要求每个单位要有一个主管,分管领导、高管要分管文件档案工作,所以我们现在叫CRO制度,在责任上交代了每个部门他移交的这种责任和义务。所以维持到2015年,因为软件不是一下建成的,所以2015年他们又重新对ERA进行一个启动、升级。因为有这么一些整个系统的迭代发展,所以在2016年颁布的一个战略规划当中就提出来,去年他们又专门发布了一个新的备忘录,明确了在2022年某个时点,要全面向电子产业转型。所以用刚才那个定义来讲的话,从模拟空间转成数字空间的话,我们可以认为美国的这门作业,初步是做完了,所以我想今后有这个事件我们来串联一下,在法律上通过这种方式,在法律上得到一个初步解决,然后标准,长期的系统建设就是一种责任的这种强调,才完成了一种所谓的叫做相对完整的一个数字转型的过程。

我们国家总的来讲,关于转型,我们国家的一个特点是自上而下的动作其实相对比较多。其实在总体层面上,法律的绿灯已经打开了,包括我们具体的法律上方面的电子签名法,我们的三大诉讼法修订,以及国家档案局,尤其这几年的规划当中,不同部门的领导在各个场合的一些讲话,还有我们那些标准的针对性的修订,还有这两年包括我们的技术部,包括馆室司、经科司,都做了大量的数字档案馆和数字档案室的试点,其实都是在推进很多单位,有条件的单位要自下而上,双方互相逼近,达到一种单套、单轨的这么一个实验目的。

当然我们很多行业,尤其信息化先进的行业,像电子发票,我们这几年我们感觉到步骤,这个鼓点是越来越密,包括我们的这种客票发票和我们的保单,包括很多领域,所以都有跟进。所以从这个意义上来讲的话,我们的整个的战略的发展,整个塑造转型的背景,我觉得总体来讲是相对到达一个比较成熟的环节。

关于这个领域,我们也有一些相关的观点和教材集中在我们的尤其是人民大学出版社出版的系列书籍当中,大家下去可以有机会可以去跟踪。

第二个话题就是一个发展路径,信息化它是一个叫什么呢?迁移的过程,它不是说一蹴而就,它是一个长期复杂的过程。

我这里把它分成了五大阶段,总体的一个趋势是要求这个过程,考虑的方面要从简单到复杂管理的复杂度,是从要素到生态,那么观察这个路径,我觉得还有必要有两点需要交代。

第一个,我们要把它大致理解为它是一个瀑布模型,什么意思呢?它具备瀑布模型的特征,也就是说它具有一定的连续性,你很难说马上跨越,我觉得这个是很不现实的。第二个特征,我觉得它具有一定的这种迭代、震荡。它不是完全线性,好像一去不回头。

我们很多时候比如说我们在数字化阶段的时候,我们经常会发现我们的目录没搞好,要回过头去进行补充、著录和完善。我们经常在做电子档案管理,或者我们在做一些深度开发的时候,发现我们的扫描件的质量不行,我们要回过头去重新进行编排。所以它一定有一些是在震荡前行,但总体趋势是朝着确实是一个比较高端,走向智能,逾越发展的一个道路。

信息化的起步阶段,这个阶段我觉得不仅仅是一个技术工作,需要充分考虑到整个软件硬件,包括市场发展、行政管理的手段以及人员的这种整体情况。所以我们说这个阶段并不是说80年代开始,好像我们现在已经过了很久了,我们是都跨越了,不见得。所以第一个阶段目录数据库。说白了,就是我们解决的对象。我们首先要把它表达,在我们的系统里面,按照我经常讲的观点,我要把就像搬家一样,我首先搬什么?我个人观点,我们目录是我们管理的第一对象,所以我们在讲,档案信息化的时候,目录其实是一种表达,描述,那么首先用什么标准去描述?描述到什么程度?描述的质量怎么样?我描述了之后需不需要跟别人共享?我们可以认为其实都是这个阶段的事情。

所以用专业的说法来讲的话,我们要制定很多描述的标准,综合标准、元数据标准,数据要集成,我们要建立各种各样的目录联合中心,所以就这个阶段来讲的话,我们其实对照来看,我们的欠账其实还是比较多,比如用公开来看的,我们档案数据库,其实网上能够看得到的我们,并不是很多,其实有也相当一部分不是很成熟,然后但这一块的工作我们这里就不细讲了,总体来讲,我们怎么建数据库?其实就是我们这个阶段要解决的一个入门的阶段,这个阶段我认为其实还有很长,要做的质量很好,其实还有很长的路要走。在这方面,印象当中好像我们的青岛档案馆、浙江、福建都是做的不错的。

第二个阶段,资源数字化。我们经常讲的目录啊,基本上讲只是一个智能,是一个物理控制,是一个馆藏控制,是一个简单的检索控制的,这么一个阶段。那么,归根结底一次资源怎么来?我们要把它转移到计算机里面去,我们就需要用到我们所谓的相对是扫描的一些手段,这个阶段我们把它叫做整个数字化的阶段,没有这种不希望把数字化仅仅理解为是一种扫描,而是一个系统工程。所以这里面我们应该讲从理论上讲转化的过程,我觉得并不是说理论上意义非常大。

但在实践工作当中,它吸收了我们大量的人力、物力和财力,一线当中,我们从90年代末开始做数字化,其实很多一直做到现在,我们每年的投入其实也是非常多的。我有一些软件公司的朋友,他曾经安排他们的研究院,专门就数字化、信息化的投入作一个市场调研,应该大概是在四五年前,他们连续搞了几年,发现在信息化的招投标当中,其实70%左右的资金都是统一在数字化这个环节当中。

某种意义上讲,说明我们对数字化很重视,但是往外讲,是不是很科学,我觉得是另外一个话题。同时数字化我们要了解什么呢?他是一个转换工作,那么涉及到数字化的标准,这方面,应该讲目前信息化的领域当中,我们数字化的标准供给是最充分的,包括我们的纸质、我们的照片、我们的录音、录像,包括甚至我们的缩微胶片都有相关的行标发布,有的甚至是国标。那么建完之后,我们需要慢慢开始,我们要回答一些问题,我们扫描完了怎么办?我们扫描的时候对象是怎么寻取的?我们同未来的这种原生电子的衔接,可能要开始回答这些问题。这就是我们现在很多搞数字化的机构,慢慢开始重视,比如说我们扫描的结果,是把它当正本还是当副本来对待?像我们国家的,比如说我们的数字化纸质档案的数字化技术规范,2005年发布的,大家注意后面专门有一个技术规范,但是在2017年我们在对这个标准进行修订的时候,把技术二字去掉了,加上了管理。如果仅仅是把这当成一个副本来扫的话,我们其实对很多单位来讲,还存在两套纸质还要管,电子还要管。那么能不能在一些环节,我们把纸质扫描件等同于原件,这个是现在做数字化,我们在现阶段来做的时候可能要考虑的一个话题。当然数字化它本身的这种技术性特征也比较强,然后它的阶段性流程我就讨论的文章也非常多。

第三个阶段,我们叫做电子档案管理阶段,这个阶段我们主要解决的,我们通常在我们里面有一句口号叫做存量档案数字化、增量档案电子化。那么对于增量的档案我们要管理,如果我们长期如果还有采用双投资,那么包括到一定程度再把纸张再扫描,这个时候我们会发现我们复杂度会很高,会有很多重复劳动。那么对于增量的档案,我们能不能用他原来的方式进行管理?所以在这个领域里面,我们主要有其它问题需要回答。

第1个法律有效性。我们扫描件怎么样能保持我们经常很关心的,它具备原件的各种性质,然后这方面需要有大量的规范投入。另外我们也有一个基本观点,电子文件的管理不能是一种手动管理,要依托系统的模式来管理。所以这个阶段我们要关注的主要任务应该很多。我罗列了几个方面,有些方面我们讲经过了长期的,应该讲是发展,我们基本上告一段落。比如说我们讲的法律有效性,印象当中我们尤其本世纪前10年,电子文件有没有法律效力?所以当初法院领域里面但凡有点风吹草动,我们很多学术文章都是跟上的,应该讲这几年尤其前面几年我们三大诉讼法的这种修订,包括我们现在民意当中的档案法的这种修订,都有可能很明确。

把电子档案的这种有效性、法律方面的一些地位作用进行表述,前面提到因为美国比如说它是一个判例法国家,一个案例出来之后,事实上它可以成为一种证据在引用。我们国家是大陆法系,条文法国家,所以大家很关注的就是我们的条文里面,能不能明确表达?所以很多领导在推进电子档案的时候,之前有很多犹豫,很大的担心就是在于法律的有效性。现在可以这样讲,法律的绿灯基本已经开了,下面就看我们怎么去做。

说具体的业务环节比较复杂,然后是哪些核心特征,我们应该也是经过长期的这种探讨。我觉得国家档案局前几年也颁布了,至少是文书类档案四性的检测管理办法,对于每个四性的检测的一些基本的环节和条件做了一些表述。另外我们的电子档案管理需要的环境更复杂,需要的标准会更多。实际上不光是我们国家, ISO标准体系组织里面,对电子文件、电子档案,包括基于数字保存都给予了标准方面的充分的关注,这是我几年前就有 ISO专家曾经用那几年关注的主要国际标准,做了一个简单的这么一个框图,然后最后落脚在我们所有的电子资源管理,它应当是一个基于系统的管理,那么这个系统怎么建设?实际上我们需要相关的有很多的规范和标准。

第四个阶段我想的话是一个协同管理阶段,数字档案馆,应该讲前面三个阶段的很多都落脚在资源层面。我们数字档案馆更多的话,是考虑从一个机构的角度来讲,很多阶段的工作都是并存的。比如说我目录还在编,数字化也在扫,电子档案也在搜,我怎么在一个系统环境下进行表达,而且考虑到我们档案的一个主体任务是要对他进行长期可靠的保存。所以这些功能如果它在一起,我们更多的以数字档案馆来进行表达。在这里我提出了他的一些,我觉得我包括这几个方面,所以这方面当然也涉及到我们现在经常使用的要素档案馆,首先要保证档案的长期保存,真实可靠。那么这方面国际上是有相关的标准框架。

第五个阶段是升华阶段,就是我经常讲的,从哪里来,要到哪里去。我们那么多资源,我们规定的目的绝对不仅仅是为了存,我们肯定是更好的使用它。但是“用”我们又有很多不同的层次、不同的需求,所以具体工作场景又是一个很复杂的环境。

智慧档案馆,我觉得实际上是对我们未来档案的发展方向它的一个描述,这个我在第四部分还会讲到的5层和5域,还会有一个单独的表达。所以我想把具体的讲解放在后面再大概做一个框图。

第三部分我想表达的是什么呢?我们的信息化发展从宏观上讲,我认为它有几大的发展的阶段,其实也是一种路径。这个路径当然不是一种理想的,是我们简单大致归纳和抽象出来的。这些本质要回答的是什么?我们的管理对象本身也在不断的发展。其实很多时候的管理阶段管理路径的要求,本身就是对我们管理对象的一种回应。而且很多时候这个对象本身不是我们产生的,我记得张院长在前面讲的时候也提过,我们的前端部门,他们的系统在升级在变化,不取决于我们自己的意志,所以我经常讲到:上游要在变,我们的应对方法关键点就要变。

那么缘由刚才讲的,因为我们的前端环境在发生变化,我们的形成系统不断在发展,从我们的白纸黑字的传统,我们现在讲的模拟环境,迁移到我们数字环境,数字环境本身也不是一成不变的,也在不断的发展,像我们前段时间非常流行的大智移云、物联网区块链,都在不断改造着我们的技术环境。我相信最近比较流行的新基础设施,我们自己的网络环境,我们很多的这种计算环境还会有不断的发展,会不会有新的发展,我觉得也未可知。现在看到我们这个变化,不仅仅是一个传统到现在的变化,后面还有更多的变化层次,我想这个节奏也会更密,要建立起一种变化的管理的思维,来应对。

至于管理对象,我大致把它分成了三类档案管理的对象,一个叫做模拟态,模拟态我们讲它主要是模拟信号表达和承载的这么一种状态。把这个模拟态以它的载体管理方法,相适应的管理手段,甚至标准,我把整个合起来,我把它称之为叫做模拟它的管理空间。所以我们说模态的时候,我们不仅仅是指这个载体,就是纸张,是竹简还是怎么样子,这表达的是整个的一个管理空间。数字态是从模拟信号到数字信号,前面我讲了,你不能说数字信号0和1,它整个就是一个状态,也有分解,所以这里把理解为是以文件为中心的管理空间。就是说我们首先出现的数字态,它还是以文件的形式在表达我们的管理对象,只不过原来是纸张的文件,我们现在变成电子文件。

文件空间我们刚刚摸到一点门道,我们现在很多业务系统,很多时候直接产生的各种原始信息,开始以各种各样颗粒度的数据本身来表示,所以我们把这个系统更多的叫做数据驱动的系统。比如我们现在有很多的银行的系统,我们的电信的系统,比如说现在很多地方的这种城市大脑,所以这次疫情一出来,我们都知道地方很快,现在从某种意义上讲,比我们传统手段要真的要快速很多,实际上很多数据,很多信息后面都是靠数据,在进行驱动和流转,才形成相应的一种表达。所以大致把它分成三态空间,每个空间我们后面会简单做点讲解,我有一个小小的总结。

第一个模拟态,我觉得是以模拟信号,所以就它来讲我们的管理对象,我们的工作内容,我们的技术应用,我们目前对它的一个管理成熟度,我大概分这么几个维度,基本上我用4个字来表示,我们模拟态的空间基本是白纸黑字,或者我们加上一个物理空间,基本就可以等同于我们整个大的环境。那么传统阶段管理的一个重点就是我们要保证这个东西要有序,保管保护,我们要做到安全。

实际上我也经常用这些图来表示,比如从微观角度上讲,我们模拟态要保证我们的纸张,要耐久。所以纸张是什么材料的,字迹是什么材料的?结合方式是什么样的?我们传统讲的文房四宝,我们老祖宗实际上是不自觉的在用档案保护的标准。

另外对库房环境,我们要做到经常讲的“八防九防”,我上面看到有的单位提出十几防都有可能,因为我们觉得管理要素研究越多,它需要的这种管理要素当然就越多。总体来讲,我们传统模拟态的这种方法来表达整个的管理对象还确实是以这种载体对象加物理空间为主,我们保证这个东西长期可存,东西不损坏。

第2个态别,我们管理对象的空间,我们讲它是以文件及其元数据为中心的一种管理。应该讲我们管理对象它都是以文件的形式来表达我们档案内容。文件的形式,从传统上讲,我们可能有很多红头文件,到电子文件,我们同样有很多的具体格式、封装的要求、管理的目的,都保证我们能够对管理要素进行掌控和理解,我们可以对它进行元数据的描述,四性的管控,同样要进行大规模的仓储。

所以在这个领域里面我们研究的很多任务,我们就表达在第一,我们在建系统的时候,我们怎么去建一个非常可靠的维护四性的一个系统。

这些标准国际上研究也比较多,我们国家也曾经发布过29194电子文件管理系统通用功能要求,这些说白了都是围绕着什么?我们电子业务管理需要平台,这个平台我们是希望把我们人对文件管理的各种要求,通过这种系统的方式去固化,从而达到从这个系统里面出来的任何一个文件,都是符合四性要求,都能够达到我们档案化管理的要求。

但是这里面还有很多具体的问题,有典型的问题,也包括一些格式管理,这里面提到的像文档格式。其实我们很多管理手段基本上它是以文件为中心,文件的一个重要的抓手,当然就是它的一个格式表达,所以我们给予高度的重视,我觉得是理所当然的。但是它不仅仅是这一些,所以我这里提到这是它的一个典型的问题。

第三个态别就是我们所讲的这种数据态,它就算原生对象,它不是我们传统的白纸黑字,可能甚至也不是我们所常见的一种文件形式,而是以数据状态在我们数据库当中,在我们各种数据体系当中进行流转。有的时候真的是为了我们人管理的需要,形成一些格式化的表达,甚至输出的一些纸张不是被我们所了解的。像这些东西我们不能说它不是档案,因为它是原生的业务信息,但它升级了,就这个东西要怎么管理?所以我们就这个东西目前来讲,我们的研究还比较初级,所以它慢慢我觉得也确实是得益于这几年我们整个技术的发展,尤其是像大数据、云计算,所以导致这样的系统现在越来越普及。

所以我们研究的对象要从我们的文件开始转移到各类的变小的数据,包括它们之间的归属、模型,就这个表达我们也也引出很多的概念,比如说我们的本体,我们的数据模型,我们的这种知识图谱,也会延伸出来我们的很多的这种像知识库,这些慢慢都会从我们的一些基础的研究对象,现在我们听起来好像还比较高大上的东西,像这些细节比较多。关注的领域,它整个的适用技术和适用的一些工具,我想,不同态别的差异慢慢开始呈现出来了。

另外,这里面研究的典型问题应该讲还比较多,所以这个阶段来讲的话,我们更多的还处在一个提出问题的阶段,但很多问题我们需要对它有一定的答案,要有一个路径。从保存的角度,对数据态对象的保存需要有一些概念上的变化。所以比如我们要构建解读数据语义的微生态,我们保管的如果不再是我们传统的白纸黑字,不仅仅是以格式封装,或者保留的文件内容,如果都是数据的话,对我们来讲,我们需要的配备的手段就要越多越丰富,因为我们需要维护微生态,它的依赖关系将更复杂。所以这种语义关系,数据之间的方式,我们包括数学上的描述,比如说逻辑、业务的规则、模型的定义等等,已经在数据库的管理、保存,还有我们三维的数据的保管当中,已经明确出现了这些,要对这些对象,我们相对平时觉得非常抽象的对象,对它要进行管理。

第二,我们升级档案的标准,整个的描述标准要升级。从传统的载体从这种著录到元数据,慢慢我们要开始走向要用本体定义来描述我们之间的语义,我们的整个描述的结构要逐步的走向更细腻,偏向于语义的东西越来越多,格式也在不断的发展。

但慢慢的我们对于电子文件管理,我们光靠一种结构化的数据,这种表达可能不够,我们可能要基于一个比较更灵活的使用多种问题的。到了语义阶段,我们可能就更需要一种表整体的表达。

未来我们在语义解释的时候,是不是需要更多的考虑一定的观点?所以从这个简单来看,好像是越来越复杂,但是我也要讲一下,我们并不是为复杂而复杂,因为确实我们对象的分析程度需要我们用更高级的工具去表述。所以接触这些工具之后,我们其实发现内在逻辑本身还是找到一种管理的目的。现在这样的话我们所以确实存在一个知识结构和升级调整的问题。从描述的标准升级来看,我们觉得这个是一个必然。

所以说模拟态到数据态那就必然要发生两次跃升,我们在讲数字化到数据化,可以简单的讲数字化,我们认为是一种切换转换工作,从模拟信号转化为数字信号。那么数字态到数据态,这个我觉得取决于我们的数据,因为这数据我们讲到的应该讲是一种可以解析的,而是面向机器的,确实有的时候可以自动执行的一种状态。

所以我们经常讲一份白纸黑字的文件,比如说我这里已经地质资料馆为例,他们提供了这么一个材料,这里我们的白纸黑字,我们通过数字化的方式,你可以看到他们的地质图有的非常长,统计说他有18米长,但扫描完了之后就万事大吉吗?并不是。他们还有大量的标注,而且对专业的档案来讲的话,这些标注里面都要经过专门训练,标注成有意义的数据。然后提供各种各样的数据地质资料的分析,这就是数字化的数据化。

所以有这些数据,像地质档案馆、地质资料馆,他们才能够提供比较靠前的,做数字出版这样的一些服务,我们可以认为它实际上是沿着这种数字化到数据化,为自己的这种从简单的保管,到这种一般性的服务,到更高级的一种知识服务,如果哪个地方发生地震,他们的网站可以看到,一般是在两个小时之内,提供当地的一个资料服务。我认为他们是做了一个链条比较完整的这么一个机构,而且能看得到。我们还可以从一些具体案例来讲,比如说像李白的诗词,通过对李白的生平研究,把李白的生平、李白的各种诗词文献,然后才能知道李白什么地方在什么时候写了什么诗,大概这么一个过程。如果现在用这种扫描,然后在数据解析,通过这种解读,我们可以用更灵活的方式来表达。这个我觉得也是可以表达一个从数字化到数据化的这么一个流程。

最后我想基于三态,我们做一个简单的这种总结,总的来讲的话,模拟态、数字态、数据态,也是档案原始对象的发展,我也在思考它为什么会有它的变化,它的这种逻辑依据在哪里呢?我们以人和机器来看待的话,模拟态对我们人来讲,是语音连续和信号连续的,模拟信号是连续的,数字信号是离散的,所以只要是离散的,我们就需要依赖机器,依赖软件,帮助我解读。同时我们传统白纸黑字文,包括我们的电子文件,除了以文件为中心,对我们来讲,他的语义是连续的,也就是说我看到有个文件,它只要是文件的形式表达出来的,我能不能够直接看懂?当然不绝对。但如果是数据、语音是离散的,所以我们需要用一个语音联合语义的方式,把它表达成一个连续的语义,所以就这一点这是我们保存的难点。所以从这个角度上讲的话,我们从模型态到数字态,到这个数据态我们整个的保管手段,我们要升级。

所以我们这里从管理目标来讲,对于某种态,我们做一个最基本的管理目标,我们只要保证我们的白纸黑字能看得到,我们的保管目标就达到了。我们经常讲这个档案我给你保存好了,白纸黑字都看到了,但你看不看得懂,那是你的事。但是对于我们的软盘、磁盘、光盘,你放在哪个部门?你不能说我拿出光盘,你看到了不行,还能打得开,我能可读。所谓的可读,就是把它解读出来。但你读不懂得懂那是你的事情,所以它基准依赖它是一个可读级的,但数据态的管理目标要求,基准依赖要求升级了。

在我的库存里面,我同样能够打开一个数据库,对面数据是什么意思?我不知道。它们之间的关系有没有相关的一些文档支持、背景支持?没有。别人看到的也就是一堆数字而已,所以我们需要在数据态,维护它的可理解性。所以从这个角度上讲,我们的内在要求在不断的升级,所以我们要不断的升级。

我大概把三态的不同的管理层级,还有管理要求,同步的表达一下。正是因为有这么一些不同,所以现在的这种信息化发展,对我们提出越来越高的要求,所以不能说我对模拟态的对象,我就没有一个智能管理要求,绝对是有的,但是要想对模拟态的内容,打造一种用智能的技术来达到它管理的这种目标的话,我们要对模拟态本身这些对象,要去不断的提取、转化,还有一个发展路径,所以对三态我们这个对象有一定了解,基础上我们再来看我们的智慧档案馆,我觉得它的发展路径我觉得相对可能比较清晰一点。

我这里也先介绍一个我们这个领域经常用的信息链的模型,我们经常讲的DIKW,从数据到信息、到知识、到智慧。简单的讲,数据在不同的领域它的解读绝对是不一样的。我们这个数据理解为它就是一个对象,对它进行属性抽取之后得到的结果,比较原始比较基础,但是围绕它进行加工的路径,国外的一个作者,曾经写过这么三种理解关系,不同的层次的时候,他达到一定的理解层次。同样的对加工的程度不一样,它所依赖的工具,所依赖对于这种尤其资源的成熟度和储备的这种形式,他是有前置条件的,一步步走下来,我们是达到一种知识管理。未来我们要面向智慧做一些事情的话,我个人觉得确实是需要,至少从我们大部分来讲,我们是掌管资源的,我们要对资源本身进行一些大量的加工和处置。

然后这里讲的是智慧档案馆的层级,同样的道理,我们智慧档案馆的层级,为什么说的比较复杂?因为不同的人对智慧档案馆的理解,包括档案馆、档案,它的内涵和外延范畴,理解都有差异的。

我对智慧档案馆我有一些思考,智慧档案馆的概念,也确实有个过程,刚开始我们也是很排斥的,我觉得怎么智慧这个概念,因为我们这个领域概念透支确实是存在的,但是很多时候你不用这个概念,在很多时候外围的,很多公司的宣传,也慢慢的会导入到我们的领域研究之中来。所以很多时候我们不认为像我们的数字档案馆、智慧档案馆它不一定是术语,但它代表着一堆概念,比如说术语带来了很多实际上的一些技术工具,会引起我们理论上的一个思考。

所以很多时候我们用这些词可能代表的是一种情境,一种场景了。但是里面的具体的概念定义,还要需要结合具体的这种理论的来源去分析。然后我这里把智慧档案馆的层次从几个角度,第一,我们档案馆我觉得它有几大不同的对象,对象不一样。

有的智慧档案馆研究的,是由内而外的,比如说我们档案部门实践的人,包括从数字档案馆功能拓展去讲智慧档案馆比较多,但是往往很多同志是从外面的角度,我们从第三方,从智慧城市、从智慧技术的角度,来观察智慧档案馆应当具备什么。

我自己相当于是画了一个这么一个图。图也是当年基于一个跟国家电网一个部门,曾经做一个项目合作的基础上,我把它提升了一下,我把它理解为叫“五域”有几大方面。

我们这里以一个档案馆一个典型的,比如中央档案馆样式来讲的话,智慧档案馆的话,它有很多对象,对象不一样,使用的技术环境不一样,所以我觉得有必要对他进行一定的分解。

第一个我们理解就是一个物理环境,包括的楼宇环境,包括我们的库房环境,为什么要把单独提出来呢?因为我觉得这些技术,他用的技术,整个工具的这种风格类型,跟我们在讲一个具体档案内容数据的时候,我觉得是差异还是比较大的。

在这里,提一下,我们这里讲东西的时候,他们很多时候是拿来主义,给我们的智能楼宇,我们现在很多档案馆也在筹建新馆,我想楼宇技术它的这种监控、安全,这种定位,物联网、单片机,有很多的融合,融合度越来越高。

库房同样如此,我们的库房同样存在不同的管理要求,比如说缩微胶片的库房同放一个我们一般的纸质档案照片的库房,很多时候还是不一样的,它也涉及到具体的这种温度,甚至是很多的控制。所以说包括库房里面,我们提到了对于很多具体设施,我们还可以利用边缘技术的一些技术。

第二个“域”我们讲的有大量的、具体的,设备设施的一个域,因为如果说库房和楼宇还是比较固定的大型的物理空间的话,那么我们里面大量的存储的具体设备,包括我们的很多装备,包括一些比如说装订机、装具等。我们有很多的设施设备,这些设备我觉得也会有很多,这些设备怎么管理,我觉得在我们整个管理工作中不能把他们遗漏下来,他们也需要有激活,也需要有一些感知。像我们国家前几年专门颁布了智能密集架的一个管理规范化。

同样的通过密集架,物联网的技术,把它同人员的信息进行连接,进行融合,我们对整个的环境控制的力度可以到更新的一个层面。当然这些技术我们可以说它目前还都比较外围。

当然越往后走,我们档案的载体,我们也有很多具体对象,我们的这些小的装具,我们很多档案盒也会贴一些二维码,打一些条形码等等,包括我们越来越多的我们本身的档案的载体,也会慢慢增加,也会成为我们的管理对象。因为它要达到一个基本的感知,要有一定的手段。像这些,相对不是说简单,但是也是必要的。但最终我们是要落脚在我们对档案的内容也好,由外到内,我们一步一步进来,那么最终我们的研究,我们真的是要从我们的内容角度去升华的。

我刚才讲的从目录到全文,到我们对它的这种数据化,当然信息本身就是一个数据形态表示的,我们对它要进行怎么样的一个管理,我觉得它有很大的一个发展空间。所以在谈到每个“域”的时候,它的对象不一样。

有了这么一个“域”之后,下面我们分5层,这5层我觉得最底下这一层我们叫“智识层”。“智识层”是我们其中最底下的一层,说白了要实现一个感知。我们的档案馆存在大量的物理对象,也存在很多的逻辑对象。第一层的要求就是对任何对象可以这样讲,要有一个感知,感知当然要求的这种技术,我们现在是越来越高级。我们讲的RFID,我们传统的手段、编号、分类,我们如果了解我们最新的这些语义标准的话,甚至对某些属性我们都要求有一个独立的编号,就这个对象不仅仅是说库房有编号,柜架有编号,载体有编号,甚至我们这个数据本身也有编号,所以我们要形成一个可感知的对象空间。从物理上讲,它能够形成有序。从逻辑上讲呢,我们保证每个空间每个对象本身都是可追溯的。看着很简单,但其实要把它做到“智识”能够感知的话,我觉得其实还是有很多工作量要做的。

第二个层次我认为是治理层,治理层,说的就是提供一个有序的成为一个基于体系认证的管理空间。我们的管理空间,包括很多要素,都取决于我们对于治理整个要素的认知。比如说你可以认为安全,我们把这些主要的外围,我们认为一个档案馆一个正常运营的机构,他应当具备的一些管理要素,我们从理论研究的角度来讲,就要达到这种标准要合规。比如说安全体系的,比如说质量管理的。比如长期保存环境的标准体系,我们可以基于ISO27000,质量管理的我们可以基于ISO2000等,都有相应比较权威的,或者可以对照国际的、国内的一些标准,这样打造一个基本目的之后,我们可以引导我们整个管理环境、治理环境达到一个比较成熟的地步,这个也是个长期而漫长的过程。但是必须保证这些基本的对象和管理要有一个很好的空间基础。

第三个层次我们把它叫做“智联层”,这个应该讲是我们走向智慧的一个应该讲是难度也比较大的,这么一个层次。光靠我们的一个数据基础有目录数据库,我们要提升到智慧,我们就要把很多的数据的这种概念要活化。智联层有对象基础,它要把基本的数据表达出来。像我们经常在讲数据库的时候,数据库有原始数据库,数据库要做的好,我们要把提取、存储数据库,营造成数据仓库有了这个基础,你才能去做挖掘。我们讲到数据的挖掘,我们讲的这种决策支持,才有基础。

我们还要有大量的档案数据的模型,我们的关联数据的建设,我们本体的建设,所以通过智联层,建设一些新型的档案数据基础,把我们原始数据搜集出来的,通过我们的著录,通过我们的云数据捕获,一定要加一些语义上的支撑。形成一个便于分析的,往下它是可以支持我们整个空间管理的,网上可以支撑支持服务的这么一个数据存在里面。所以预计我们未来的档案的这种发展,可能有的领域要走向某些专业化,要引入一些行业专家来进行,比如现在已经开始有些分化了,比如说我们在做某些价值的档案,我们在做一些专业档案的时候,一定要引入一些专业的力量来进行。

第四个层次我们把它叫做智能层,就是说智能层我们觉得本质上讲是一个赋能的能力空间,这个涉及到我们对技术本身的理解,很多时候我们把这个技术用了,但用到什么程度?是不是真的能够打造一种智能的目的?

智能说白了要有一个能动,对智能的表示要有一定的梳理,我个人把它简单地理解成了几个层面:我觉得第一要有交互。如果没有交互,只是简单的感知和识别,还谈不上智能。

有一次开会,我碰到一个档案馆馆长,他们也开始用很多这种比较先进的监测设备,比如温度、湿度,像我们以前要测温度,湿度,我们可能要用机械式的话,可能一个星期、一个月才能得到一张温湿度的曲线表。到现在我们不用了,现在我带一个手表,温度一高,他一报警我就知道了。我说那很先进,他说你不知道后来经常是晚上发现温度高了、低了报警,睡不着觉。他说安全问题都是大事情,所以在半夜可能还跑到库房里面去,说能不能做到什么呢?光靠识别我们觉得还不够,如果温度高了,能不能自动启动空调?湿度低了,能不能自动启动加湿机?这样的话我们就实现某种能动,不光识别,识别之后还有后续的控制。如果能达到这种目的,这种层次路径的数据的应用,我们觉得它才有一定的智能的一种色彩在里面。所以交互、融合、再现、人工智能,包括我们的库联网,我觉得把这个层次做到一定程度,可以说已经达到智能层。其实我们现在很多所谓的智慧档案馆,我个人认为很大部分是达到智能这一层级。

那么到了智慧这一层其实从真正的智慧技术来讲的话,它是不完备的,因为它需要人的很多价值判断在里面,它不是一个纯技术能完成的事情,所以未来的智慧展馆绝对不会是无人档案馆,还是需要有人参与的。这个模式的识别、判断,尤其为了涉及到一些一种叫做机器伦理的东西,我觉得人的干预还是不可少。所以这里我们只是提智慧朝这个方向发展,它是基于学习的价值空间,所以这里面它一定是基于某种场景的。要有问题引导,通过智慧的技术,它能够逐步逼近,然后最终由人来做决策。这是一个技术,人还有一种某种意义上的价值判断的高度融合,这样我才觉得有点智慧的味道,所以他很难形成一种功能模块,我觉得不现实,但是它可以提供某种路径,所以我们现在也更多的在搭建各种工具的组合。

所以从刚才讲到的几个图来看,我们的智慧展馆讲了5域5层。其实我们很多部门自己可能在某些领域,我们的这种智能技术达到了某个层级,但是是不是整体达到了某个层级,我们觉得需要综合去判断。

总结一下,我觉得每一层对应管理的这种能力中心确实是有差异的,所以我把它称之为叫做智慧档案馆的技术层级,每一层要达到每一层层次,我们主要依赖的这种关键技术,它的主体还是有差异的,作为这里简单做了一个总结,供大家参考批判。

最后我想说的是什么?智慧港口的发展的路,我想一定是漫长的。肯定还有很多模糊的地方,但是我相信只要我们一步一个脚印,我想我总有拨云见日一种感觉。

以上是个人的一些浅见,确实这个话题也很少完整的在其他地方讲。所以通过这么一个机会给大家做交流,也欢迎大家多多指正。

(0)

相关推荐