招投标案例,基于语义的招标文件示范文本智能更新研究

文章链接:2021年8月23日,招投标案例,基于语义的招标文件示范文本智能更新研究

中国招标投标协会 阳光采购引领者广州品时

收录于话题

#以往法律法规条例,公众号文章目录15

#以往招投标动态,公众号文章目录17

#以往招投标案例,公众号文章目录17

专业的招标投标

交给

专业的广州品时

NO.1

关键字

语义、招标文件示范文本、智能更新、自动建立、范本内容、国家法律法规、企业招标管理制度、语义关联,自动发现、建议、范、本自动更新迭代、人工平均接受度超过70%

NO.2

摘要

基于语义的招标文件示范文本智能更新的方法能够自动建立范本内容同国家法律法规、企业招标管理制度的语义关联,能够自动发现并给出建议,实现范本自动更新迭代。该方法可有效建立语义关系,实验范本人工平均接受度超过70%,验证了该方法的有效性。

本公众号发布审核部门:

广州品时纪律监督委员会

广州品时质量监督委员会

NO.3

正文

发布时间:2021/08/23

基于语义的招标文件示范文本智能更新研究

2021-08-20

为解决招标投标法律法规和制度变更后招标文件示范文本更新效率和更新效果的问题,本文提出了基于语义的招标文件示范文本智能更新方法,利用人工智能技术,自动建立招标文件示范文本内容同国家法律法规、企业招标管理制度的语义关联,并在发生变化时,自动发现变化内容并提供更新建议,以保证招标文件示范文本更新的及时性和完整性。同时,本文通过8种不同的属性招标文件示范文本更新实验对方案的有效性进行了技术验证。

一、引言

(一)招标文件示范文本更新面临的合规性挑战

招标文件是招标投标活动的核心。为满足招标需求,招标方在国家标准招标文件的基础上,依据国家招标投标法律法规、企业招标管理制度等材料编制招标文件示范文本(以下称为“范本”)。随着国家法律法规和企业招标管理制度的更新,招标方需要更新范本以满足国家法律法规或企业招标管理制度的新要求。由于人工更新具有滞后性和主观性,从而导致基于范本编制的招标文件出现不合规现象,这个问题一直困扰招标从业人员。本文利用人工智能技术,提出基于语义的范本智能更新方法,为范本更新提供切实可行的方案,提升范本的更新效率和效果。

(二)目前解决合规性的方法和难点

目前解决合规性的方法是招标方通过人工方法建立一个招标投标相关的国家法律法规、企业招标管理制度的资料库。当国家法律法规或企业招标管理制度有更新时,凭借人为经验定位范本对应位置并进行内容更新。这种解决方式的难点在于无法保证所有变更及时发现,以及发现变更后无法确保范本修正的完整性。

(三)人工智能技术提升范本更新的合规性和可行性

范本由章、节、条、款、项、目组成,将范本、国家法律法规、企业招标管理制度按照语句拆分,建立语料库,可通过人工智能技术建立范本语句和国家法律法规、企业招标管理制度语句之间的语义关联。建立关联关系后,国家法律法规、企业招标管理制度一旦发生更新,系统能够及时发现更新内容,并生成更新建议,确保范本同步更新和全面更新。

二、问题描述

在范本使用过程中,经常需要处理以下两类更新问题:

第一,国家法律法规更新,范本必须随之变更。例如,标准施工招标文件(2007年版)中关于投标保证金退款的描述是“招标人与中标人签订合同后5个工作日内,向未中标的投标人和中标人退还投标保证金”,《招标投标法实施条例》中关于投标保证金退款的描述是“招标人最迟应当在书面合同签订后5日内向中标人和未中标的投标人退还投标保证金及银行同期存款利息” 。

第二,企业招标管理制度更新,范本必须与之保持一致。例如,企业招标管理制度中关于签订合同的时限规定为:“应当自中标通知书发出之日起三十日内,按照招标文件和中标人的投标文件订立书面合同”,其后更改为二十五日。

本文希望解决上述两类问题。本文研究的核心问题是如何自动建立范本内容同国家法律法规、企业招标管理制度的语义关联,并在发生变化的情况下,能够自动发现变化内容并提供更新建议。

三、相关研究

(一)同行业相关研究

国网重庆市电力公司在2019年开始对工程类“标准招标文件”进行规范编制,对招标文件结构化和内容更新进行研究,通过开展招标文件结构化管理与研发设计工作,实现了招标电子文件自动生成和更新,进一步提升了招标文件的规范性,保障了招标文件内容的准确性,避免了招标文件编制出现遗漏或出错的现象,减少了采购风险发生的概率。

(二)医疗行业相关研究

医渡云从2014年开始,着力于“医学数据智能平台”的研究,以大规模临床数据为基础,结合不断更新的医学文献,构建可辅助决策的智能化平台。医渡云将医疗文本数据结构化、归一化处理,对数据进行标准化管理,可实现临床数据及医学文献的自动更新。

(三)法律行业相关研究

2014年6月,最高人民法院数据集中管理平台建成并投入使用。目前,平台已实现对全国四级法院案件数据的自动管理、实时更新、动态分析,并初步具备了数据纵览、审判动态、司法统计、专项分析、司法人事、综合搜索等六大功能。最高人民法院数据集中管理平台将逐步汇聚各类司法数据信息,建立司法资源数据库和信息资源目录服务体系,每5分钟自动更新一次,数据清晰可见,更新速度快,大幅度提升了办案效率。

(四)对本文工作的启发

基于上述不同行业的实践案例,可以发现文件更新研究已在各个行业存在广泛应用,为范本的更新研究提供了启示和思路。本文将范本更新作为重点研究的内容。首先将范本、国家法律法规、企业招标管理制度按照目录、语句深度结构化,然后对不同语句进行关联,最后对范本中变化的语句进行精准推荐和更新。

四、解决方案

(一)方案概括介绍

本方案基于深度学习技术,通过构建一个基于语义的范本更新模型,建立范本语句与国家法律法规语句、企业招标管理制度语句之间的关联关系,实现范本自动更新。

如图1所示,对范本、国家法律法规、企业招标管理制度进行结构化处理,将非结构化的文本数据解析成树状结构数据存储。首先使用基于K-Means算法的聚类器,将范本中的语句、国家法律法规语句、企业招标管理制度语句进行分类预处理。聚类处理完成后,得到N个聚类簇。对每一个聚类簇中的范本语句和国家法律法规语句、企业招标管理制度语句,通过词嵌入技术、Transformer编码器、交互注意力机制和特征融合,建立范本语句与国家法律法规语句、企业招标管理制度语句之间的关联关系。当监测到国家法律法规、企业招标管理制度发生更新时,根据已关联的数据集,对范本关联语句提供智能更新建议。

(二)范本智能更新建议模型

1. K-Means聚类器

基于K-Means算法的聚类器是对于给定的样本集,按照样本之间的距离大小,将样本集划分为K个簇。让簇内的点之间距离最小,而让簇间的距离尽量大。本文先通过聚类器将范本语句、国家法律法规语句、企业招标管理制度语句进行预处理,初步划分成一个个簇。为后文簇内的范本语句、国家法律法规语句和企业招标管理制度语句建立基于语义关联关系,提供数据集。

最后聚类结果举例如下所示:

簇-1:{“招标人和中标人应当在中标通知书发出之日起30日内,根据招标文件和中标人的投标文件订立书面合同”、

“招标人和中标人应当自中标通知书发出之日起三十日内,按照招标文件和中标人的投标文件订立书面合同”、

“招标人和中标人应当在投标有效期内并自中标通知书发出之日起30日内,按照招标文件和中标人的投标文件订立书面合同”、

“应当自中标通知书发出之日起三十日内,按照招标文件和中标人的投标文件订立书面合同” },

簇-2:{“招标人与中标人签订合同后5个工作日内,向未中标的投标人和中标人退还投标保证金”、

“招标人最迟应当在书面合同签订后5日内向中标人和未中标的投标人退还投标保证金及银行同期存款利息”}

2.词嵌入技术

词嵌入是自然语言处理中语言模型与表征学习技术的统称,它是指把一个维数为所有词的数量的高维空间嵌入到一个维数低得多的连续向量空间中,每个单词或词组被映射为实数域上的向量。本文先通过分词处理,再采用word2vec模型来训练范本文件语句、国家法律法规文件语句、企业招标管理制度文件语句得到词向量,整体过程如下:

用ANSJ对范本文件语句、国家法律法规文件语句、企业招标管理制度文件语句进行分词,得到分词结果。结果举例如下:

原始语句:

“招标人和中标人应当在中标通知书发出之日起30日内,根据招标文件和中标人的投标文件订立书面合同。”

分词结果:

[“招标人” “和” “中标人” “应当” “在” “中标” “通知书” “发出之日” “起” “30日” “内” “,” “根据” “招标文件” “和” “中标人” “的” “投标文件” “订立” “书面” “合同” “。” ]

通过word2vec模型生成范本、国家法律法规、企业招标管理制度文件词向量。结果举例如下:

{[「“招标人”:0.64」「 “和”:0.98」「“中标人” :0.74」「“应当” :0.84」「“在”:0.44」「“中标”:0.89」「“通知书”:0.91」「“发出之日”:0.83」「 “起” :0.92」「“30日”:0.75」「 “内” :0.63」「 “根据” :0.92」「“招标文件”:0.71」「“和” :0.80」「“中标人”:0.74」「“的”:0.68」 「“投标文件” :0.69」「 “订立”:0.69」 「“书面”:0.84」「“合同”:0.73」 ]}

3.Transformer编码器模型

Transformer模型是基于注意力机制的序列编码模型,该模型包括编码器和解码器两个部分,本文使用的是其中的编码器部分,编码器包含6层叠加的Transformer-block,每个Transformer-block的结构如图2所示,主要包含多头注意力机制、残差连接、层归一化和全连接网络四个部分,输入为语句词汇的词向量编码和位置编码之和,位置编码的目的是区分语句中词的位置关系。

4.交互注意力机制

本文的交互注意力机制设计分为两步。首先计算相似度矩阵得到两个语句中词汇之间的相似度,然后利用注意力机制分别对每个语句的词汇进行重新编码。例如:

语句1:招标人将在收到异议之日起3日内作出答复。

语句2:招标人应当自收到异议之日起3日内作出答复。

从语义层面看这两句话,可以看出两句话的语义有明显的差别,但是通过结构对比发现在语句1和语句2中有较多相似的成分,这些语义相似的语句成分对于语义的相似程度具有重要影响,并且只有通过联系另一句话的语义,才能提取出两个语句中相似的语义单元。因此,本文提出使用交互注意力来提取语句间的相似特征。

5.特征融合输出

Transformer层编码了输入语句全局的语义特征t1,t2,其中t1表示语句1的语义特征,t2表示语句2的语义特征,交互注意力层提取了每个语句中的局部相似特征s1,s2,其中s1表示语句1的相似特征,s2表示语句2的相似特征,特征融合层根据以下公式将两部分特征进行融合:

其中t1−t2,s1−s2是向量的相减操作,目的是为了获取差异特征,最后通过向量拼接的方式,得到最终的特征融合向量m,经过实验证明采用全连接层作为输出效果好于使用欧式距离或余弦相似度,因此采用全连接层的结果作为输出。数据对比结果如表1所示。

(三)更新建议生成

如图3所示,监测输入文件,当发现输入文件更新时,通过范本更新建议模型,对更新内容进行推荐更新。

五、 实验结果

(一)实验设计

1.实验目标

基于通过范本智能更新模型建立一个范本语句与国家法律法规语句、企业招标管理制度语句之间的关联关系。当监测到国家法律法规、企业招标管理制度有更新时,能够通过该模型,自动推荐更新建议内容。

2.实验数据

本文从国家能源集团提供的9个国家标准文件、7个国家法律文件、22个部门规章文件、32个集团制度文件中提取相关的知识点数据(见图4)。

3.实验方法

(1)输入文件结构化处理。对范本、国家法律法规、企业招标管理制度进行结构化处理。解析文件中的章节目录信息,表格信息、正文信息。章节目录信息按树状结构化处理,并确保段落正文都能关联到正确的目录。最后,对所有的段落正文以语句的形式进行拆分,并标记语句所在段落正文对应的下标值。

(2)关联关系的建立。在完成范本、国家法律法规、企业招标管理制度结构化处理后,通过K-Means聚类算法,将所有语句进行聚类处理,得到N个聚类簇。判断同一个聚类簇是否同时存在范本语句和输入文件语句,如果存在,通过模型建立范本语句与输入文件语句之间的关联关系。如一个聚类簇中只存在范本语句或输入文件语句,则进行过滤,不予处理。

4.关键指标

通过专家接受度来衡量范本自动更新的质量。专家接受度的分母是以所有智能修改建议(SA)的数量,分子是其中被接受建议修改(AM)的数量。

(二)实验结果及分析

为了验证语义相似度关联模型的有效性,本文对推荐的更新内容进行分批抽查,以验证结果。

1.实现结果分析

通过以上数据可知,基于K-Means聚类器和语义关联模型,能够较为有效地建立范本文件语句与输入文件语句之间的关联关系,其覆盖度能达到70%以上(见表2)。

2.实验方法的有效性

为进一步验证基于范本更新模型的准确率,通过多次实验更新输入文件,发现对应范本文件也会进行推荐更新,人工接受度达到70%以上,证明了方案的可行性(见表3)。

3.分析方法待提高的部分

通过人工反馈的方式,持续迭代范本更新模型。人工对范本文件语句与国家法律法规语句、企业招标管理制度语句关联关系的正确性进行反馈,增加更多的训练数据,提升模型精度。

六、 结论

本文提出了一种基于语义的招标文件示范文本智能更新的方法,该方法能够自动建立范本内容同国家法律法规、企业招标管理制度的语义关联,并在发生变化的情况下,能够自动发现并给出建议,实现范本自动更新迭代。实验结果表明,该方法可有效建立语义关系,实验范本人工平均接受度超过70%,验证了该方法的有效性。

(0)

相关推荐