基于知识图谱的电缆故障诊断分析
我国城市电网系统电缆化率逐年提升,电缆线路安全运行的重要性日益凸显。近年来,由于用电负荷不断上涨等原因致使电缆故障频繁发生。目前,国家电网公司系统内的高压电缆线路总长度已超过 3 万千米,近几年的高压电缆故障次数年均几十次,分布在电缆和附件不同位置,且故障原因多样化,每年组织电缆线路的故障分析也成为一项非常重要的工作。
电缆线路一般敷设于地下通道,一旦发生故障,抢修工作时间紧、难度大,电缆故障原因分析专业性强,且费时费力,甚至很多线路的故障因缺乏专业人员协助分析很难找到真正的故障原因,这在全国很多运维单位都是普遍存在的问题。一些重要的高压电缆线路发生故障时,公司相关部门会组织专家对该故障现象进行分析和论证,得出故障原因,并给出解决问题的建议。国内近些年形成了很多典型的电缆故障案例,而公司系统对这些高压电缆故障案例的管理缺乏有效的信息化手段,现有的很多故障案例资源只能成为个例,没有对其他的故障案例分析发挥研判借鉴作用。
为了提高系统运行的可靠性,在发生线路故障后,运维单位首先应尽快有效恢复线路运行,并且要尽快分析和总结故障案例,提出检修的意见以及对应的整改措施,避免再次发生类似的故障。目前,全国范围内电缆数量大,基层运维管理专业人员相对紧张,电缆故障人工分析难度大,因此,采用人工智能技术建立电缆故障快速分析手段的需求日益迫切。
随着大数据处理和人工智能技术的快速进步,当今世界已步入互联互通的信息化时代,作者针对现阶段专业大数据分析能力薄弱、非结构化运检大数据无法实现综合分析等突出问题,以本公司 PMS 系统、精益化管控平台等运维信息交互为切入点,利用大数据处理技术和人工智能技术,建立规范化的电缆故障案例库,研究故障智能分析算法,建立电缆故障智能研判系统,该系统基于大数据挖掘技术和知识图谱关联分析技术,实现故障案例特征条件与历史数据的智能匹配,推荐相似故障案例和故障原因,最终生成专业的故障分析报告,协助运维人员对电缆线路故障的检修处理,可以大幅提高电缆线路故障分析效率。
1 知识图谱核心技术
知识图谱的可扩展性和表达能力都非常强,在进行知识表达时,可以从多种粒度进行表达,要充分利用图谱的表达能力,使得其能够为不同应用场景和不同业务需求提供服务。关于构成知识图谱的架构,既包括知识图谱自身的逻辑结构,也包括在构建知识图谱时所采用的技术架构,如图1 所示。
图 1 知识图谱构架示意图
为了使图谱资源的内容能够被计算机所理解,需要对知识内容赋予专门的语义描述框架。语义描述框架作为描述资源的机制,可以实现任何领域的资源描述,它通过类以及属性描述个体之间的关系,这些类和属性由模式定义。在 RDF 中,知识总是以三元组的形式出现;RDF 中的主语是一个个体,个体是类的实例;RDF 中的谓语是一个属性,属性可以连接两个个体,或者连接一个个体和一个数据类型的实例。
RDF 为知识图谱数据的存储与查询提供了详细的规范描述,具体的研究实现只需要遵循其中的标准即可。
1.1 知识标注
由于对知识文档进行标注的效果主观性很大,需要人工干涉与审批来判断标注的结果是否准确合理。本文采用的人工干涉是让人工专家来对机器标注的结果进行审批,即手工标注。专家对机器标注结果不理想的标签进行修改,提高整体的标注效果。自动标注将通过 TF-IDF、Jaccard 和 HowNet 语义相似度来得到自动标注的结果,而手工标注将通过 Web 页面形式的手工标注技术来对标注结果进行修正。
1.2 知识融合
1.2.1 模式匹配
模式匹配主要寻找本体中属性和概念之间的对应关系:
(1)通过使用电缆结构以及 WordNet 之类的词典等信息进行模式匹配,然后加权平均整合结果,再通过一些模式去进行检查,删除导致属性不一致的对应关系。通过循环此过程,直至没有再找到新的对应关系。
(2)通过基于术语的相似度计算算法,比如编辑距离和 N-Gram,对结果进行加权求和再合并,概念之间的层次关系以及相关的背景知识也需要考虑,最后进行合并。
(3)使用锚的系统来应对大规模的本体,此系统的起点为一对来自两个本体的相似概念,找出匹配的概念需要通过根据这些概念的父概念以及子概念等等邻居信息一点一点地构建小片段。新的锚为新找出的匹配概念,然后再构建新的片段。不断重复该过程,直至找不到新的匹配概念对。
(4)采用分而治之的思想,来处理规模庞大的本体,对本地结构进行划分形成组块,然后再基于这些组块进行锚的匹配,此锚指预先就匹配好的实体对,最好找出相应的属性和概念从所匹配的组块中。现存在的匹配方法基本上都是将多个算法相结合,然后加权求和或者通过加权平均来合并。但 是,由于本地的结构拥有不对称的特征,此方法存在不足。
(5)动态的合并方法是通过基于贝叶斯决策的风险最小化提出的,通过本体的特征计算每个实体对的相似度来动态的选择匹配算法并合并这些算法,由于其灵活性强所以带来了很好的匹配效果。
1.2.2 实例匹配
实例匹配通过对异构知识源之间实例对相似对的评估,判断是否有指向给定领域的相同实体的实例。基于快速相似度计算的实例匹配方法,这类方法的思想是尽量降低每次相似度计算的时间复杂度,即降低 O(n2t),因此映射过程只能使用简单且速度较快的匹配器,考虑的映射线索也必须尽量简单,从而保证 t 接近常数 O(1)。
基于快速相似度计算的方法使用的匹配器主要包括文本匹配器,结构匹配器和基于实例的匹配器等,很多基于文本相似的匹配算法时间复杂度都较低,但为达到快速计算元素相似度的目的,文本匹配器还应避免构造复杂的映射线索。
例如映射线索只考虑元素标签和注释信息,大规模知识图谱匹配中的结构匹配器借助概念层次或元素邻居文本相似的启发式规则计算相似度,例如两个实例的父概念相似,则两个实例也相似等。为避免匹配时间复杂度过高,这些启发式规则不能考虑太复杂的结构信息。实例匹配通常需要通过分类、规则、聚类等方法实现大规模图谱的分块,同时,并行处理技术能在此基础上进一步提高匹配结果质量。
1.3 基于知识图谱的语义搜索
基于图谱的语义搜索与传统互联网中的文档检索不同,语义搜索能够处理粒度更细的结构化语义数据。
面向文档的信息检索主要通过轻量级的语法模型表示用户的检索需求和资源等内容,即目前占主导地位的关键词模式 - 词袋模型,这种技术对主题搜索的效果很好,即给定一个主题检索相关的文档,但不能应对更加复杂的信息检索需求。相比来说,基于数据库和基于知识库的检索系统能够通过使用表达能力更强的模型来表示用户的需求,并且利用数据内在的结构和语义关联,允许更为复杂的查询,进而提供更加精确和具体的答案。
基于知识图谱的智能搜索总体技术框架从下到上主要分为四层:
(1)数据层。即原始数据层,各类用户数据、访问信息、日志等数据,数据类别主要为非结构化数据、半结构化数据和结构化数据等。
(2)存储层。包括搜索数据存储和三元组知识图谱数据存储。
(3)搜索层。包括搜索配置、搜索核心模型和搜索分析,其中搜索配置主要包括分词策略配置、同义词设置、黑白名单配置等基础搜索配置项;搜索核心模型包括 NLP 模 型、基于知识图谱的意图识别模型和 Learning to Rank 等;搜索分析主要提供针对搜索内容、搜索结果的基础分析功能。
(4)接口层。即对外提供的所有搜索相关的接口,主要包括主搜索接口、智能提示接口和相关搜索接口等。
1.4 基于知识图谱的问答
自然语言问题给定之后,就对问题进行语义理解和解析,然后通过知识库对解析结果进行查找、推理得到最终答案,完整的基于知识图谱的问答系统需要包括几个模块,分别是基于知识图谱的命名实体识别、会话补全、意图识别及查询构建。同时,为了提升问答系统的交互体验,可以从以下几个方面来进行部署实施,包括相关问题推荐、问题提示等。
2 电缆知识图谱构建与故障诊断
2.1 总体构建
知识图谱中的知识来源于结构化、半结构化和非结构化的信息资源,如图 1 所示。通过知识抽取技术从不同结构和类型的数据中提取出计算机可理解和计算的结构化数据,以供进一步的分析和利用。通过从不同来源、不同结构的数据中获取知识,然后再对知识进行提取,得到结构化的知识并存入到知识图谱中。
目前知识获取通过专家法完成,基于历史故障案例逻辑关系以及专家人工审核意见,结合线路基本信息和故障现象信息联合抽取故障特征条件,归纳总结后形成知识。知识获取可分为概念、关系、属性,其构成一张巨大的语义网络图,节点表示实体或概念,边则由属性或关系构成。
图2 应用架构
电缆故障知识图谱构建与应用设计的应用架构应分为应用层、服务层、支撑层及数据层 4 个模块,如图 2 所示,其中应用层包含故障知识搜索、故障分析页面、缺陷问答等;服务层包含图像分析模型、查询服务、文档管理、知识点推荐等;支撑层包括知识抽取、知识计算、知识建模、实体融合等功能;数据层主要包括知识存储等功能。
2.2 电缆故障图谱构建
电缆故障图谱概念包括:电力单位、电缆线路、关联厂家、故障信息、故障大类、故障中类、故障特征描述、故障原因;图谱关系包括:电缆线路所属电力单位,电缆线路关联生产厂家,电缆线路与故障信息通过线路信息进行关联,故障信息通过故障名称与故障大类、中类、特征描述、原因进行关联。
对电缆故障结构化数据按数据模板进行导入,通过构建的知识图谱模型实现全局构建。知识检索通过从目标节点开始检索,到关联方查询、到探寻节点间的关联关系。如图 3所示,电缆故障诊断程序为:
(1)发生一起电缆线路故障后,工作人员通过查询线路档案信息,并在故障现场进行观察,以及辅助一些必要的试验,得出该起故障的现象信息,经疏理归纳后可作为诊断故障元的特征条件。
(2)在故障诊断界面输入故障特征条件,通过故障特征检索关联信息,探寻关联方故障案例的描述语句。
(3)已构建的电缆故障案例库按照故障大类 - 故障中类 - 故障特征描述来进行分类。因此,在诊断检索时也按此顺序进行。例如:某起电缆本体故障,先检索故障大类(如施工安装),在施工安装大类中再检索故障中类(如敷设安装时导致电缆机械损伤),最后通过具体的故障特征描述(如电缆外层出现高温烧蚀,在外部温度作用下,绝缘逐渐遭到破坏最终引起电缆击穿事故;电缆外护套安装时出现损伤,钢丝铠装在角钢支架上形成接地,钢丝铠装中出现接地环流使铠装和支架接触部分出现高温,导致电缆绝缘破坏进而出现击穿)确定匹配度最高的历史故障案例信息(某公司 110 kV 交联聚乙烯绝缘电缆故障)。
(4)通过上述关系检索诊断出的匹配案例的分析,得出故障原因,作为诊断结果的输出。诊断界面最后打印诊断报告,诊断报告的内容包括故障概况、故障现象与分析、结论与建议。
图 3 诊断模型案例
2.3 电缆故障诊断系统
基于上述知识图谱故障诊断模型,本文建立了一个电缆故障诊断系统。该系统的输入参数包含基本信息和故障特性信息,基本信息包括:线路名称、所属单位、电缆厂家或附件厂家、投运时间、电压等级、运行年限、电缆及附件规格型号等。故障特征信息包括:故障类型(本体、接头、附件),若故障类型为本体,需确定故障类型的大类和中类,若故障类型为接头或附件,须确定接头或附件的类型及击穿通道位置,最后给出故障描述,并附上分析图片。该平台的输出参数主要包括故障原因和建议,其中故障原因根据不同因素分为三级原因和具体原因,最后给运维人员提供相应的检修建议。图 4 是电缆故障诊断软件界面。
图 4 电缆故障诊断页面
3 结论
本文对近 10 年的电缆故障历史案例数据进行结构化处理,建立电缆故障案例库,通过抽取历史故障数据的特征信息,构建电缆故障知识图谱,利用人工智能技术,建立故障诊断模型,通过故障特征条件的智能匹配来实现故障原因的快速分析,并给出故障检修建议,大大缩减电缆线路故障分析周期。