【学术论文】基于半监督学习的多示例多标签改进算法

2024-06-25 13:50:26

摘要：

多示例多标签学习框架是一种针对解决多义性问题而提出的新型机器学习框架，在多示例多标签学习框架中，一个对象是用一组示例集合来表示，并且和一组类别标签相关联。E-MIMLSVM+算法是多示例多标签学习框架中利用退化思想的经典分类算法，针对其无法利用无标签样本进行学习从而造成泛化能力差等问题，使用半监督支持向量机对该算法进行改进。改进后的算法可以利用少量有标签样本和大量没有标签的样本进行学习，有助于发现样本集内部隐藏的结构信息，了解样本集的真实分布情况。通过对比实验可以看出，改进后的算法有效提高了分类器的泛化性能。

中文引用格式： 李村合，张振凯，朱洪波. 基于半监督学习的多示例多标签改进算法[J].电子技术应用，2019，45(7)：32-35，39.

英文引用格式： Li Cunhe，Zhang Zhenkai，Zhu Hongbo. A multi-instance multi-label improved algorithm based on semi-supervised learning[J]. Application of Electronic Technique，2019，45(7)：32-35，39.

0 引言

对于监督学习，通过训练集中已知类样本学习构造一个判决边界，并设定临阈值，来实现对未知样本的预测^[1]。通常使用一个示例描述单个对象并与其类别相关联。但是，实际上每个对象都可能不止有一个语义，如一幅含有狮子、大象、草原的图，可以将其归为“大象”类别，也可以将其归为“狮子”类别，甚至可以因为动物和草原的存在将其归为“非洲”的类别。因此，当仅通过一个示例来表示一个对象时，显然难以获得期望的效果。为了处理这个难题，相关学者提出了多示例多标签（Multi-Instance Multi-Label，MIML）^[2]机器学习模型，最大特点是：在该框架中是用一组示例集合来表示一个对象，同时该对象与多个标签相关联。对于真实世界中对象的表示能力更强，其他的机器学习框架可以看作是多示例多标签框架的一种简化表示形式。

支持向量机（Support Vector Machine，SVM）是建立在统计学习理论基础上的一种机器学习方法，其泛化准确率高，计算效率高，结果易解释^[3]。传统的SVM多为监督学习，然而在实际中，有标签的样本数据是稀少的，无标签的样本数据的获取相对较易。半监督学习即通过将无标签样本数据加入训练集中，对其学习建模来增强模型的泛化性能。因此，出现了将半监督学习和SVM方法进行结合来训练分类函数的研究。

1 相关工作

传统监督学习是一种单示例单标记学习框架。学习任务是学得一个映射函数：f:X→Y。

在多示例学习问题中^[2]，用包含一组示例的集合来表示训练集中的每个对象，同时将该对象归属于单个类别标签中。该模型主要学习一个分类器(即映射函数fMIL：2^x→Y)来标记未知的示例包的标签。代表性的多示例学习算法有多示例最近邻算法Citation-kNN、多示例神经网络算法BP-MIP等^[4]。

在多标签学习问题中^[2]，对象仅由单个示例表示，并属于一组标签。该框架模型的任务是学习f_MIL：x→2^Y函数的映射，然后使用此映射来预测未知集合中的标签类别。代表性的多标签学习算法有二元相关（BR）算法和分类器链（CC）算法^[5]等。

在MIML框架下，有两种解决问题的方式，一种是应用退化的方式，以多示例学习或多标签学习作为桥梁，对MIML问题进行退化，如MIMLSVM^[6]和MIMLSVM+^[7]等。但是在退化时，有时标签间的关联信息会被忽视，进而影响到实际的分类效果。为了避免信息丢失，另一种思路是改造算法找到适应MIML框架的机器学习算法。代表性算法主要有D-MIMLSVM算法、M3MIML算法^[8]等。

2 改进的算法

2.1 E-MIMLSVM+算法

2.2 E-MIMLSVM+算法中引入半监督

半监督学习即把大量无标记的数据和少量有标记的数据一块训练，构建起泛化性能强的分类器，有标签的数据和无标签的数据的空间结构分布相似，应用无标签的样本来训练，有助于提高训练出模型的性能。

半监督SVM属于半监督领域中的学习算法，它基于SVM和半监督学习的聚类假设，尝试寻找能将两类有标签样本分隔，并且通过穿过低密度区域来划分超平面，如此一来就能同时利用有标签的数据和无标签的数据。半监督SVM中最经典的是TSVM和S3VM^[13]。通过文献[13]对类中心的有效性分析可以获得基于类中心估计的半监督支持向量机meanS3VM。它只需要最大化两个类的类别平均值，来代替之前对所有的未标记样本进行标记的方式。这很大程度上提升了半监督SVM的求解速度。

假设存在有标记的样本集D_l={(x₁，y₁)，(x₂，y₂)，…，(x_i，y_i)}，未标记的样本集D_u={x_l+1，x_l+2，…，x_l+u}，meanS3VM算法^[13]可形式化定义为：

通过分析可以得到，式(7)只需要估计无标签样本的类别平均值即可。与S3VM相比，meanS3VM避免了对所有未标记样本类别标签的估计。实际上，meanS3VM算法最大化了两个类的类别平均值。由于meanS3VM算法大量减少了约束条件的个数，因此，对半监督SVM的求解速度更快了，从而使得半监督SVM的时间开销变少。可以证明^[14]，当给定样本集可分时，meanS3VM的损失函数与标准SVM一致；当给定样本集不可分时，meanS3VM的损失函数不会超过标准支持向量机hinge损失的两倍。

为了充分利用未标记样本的空间分布信息，来进一步提升分类器的泛化性能，在本文中，使用半监督SVM算法——meanS3VM对E-MIMLSVM+算法进行了改进。由于meanS3VM算法适用于传统的半监督学习问题，本文改进了meanS3VM算法中核函数的计算方式，用多示例核函数进行替代。使得meanS3VM算法能够适用于多示例多标签学习中，从而得到改进算法SE-MIMLSVM+。令给定有标签样本集S={(X_i，Y_i)|1≤i≤l}，无标签样本集U={(X_i，Y_i)|l+1≤i≤l+μ}，测试样本集T={(X_i，Y_i)|1≤i≤M}，则SE-MIMLSVM+算法的优化问题变为：

其中，ξ_iy和ρ分别代表的是有标签数据和无标签数据的松弛变量，W₀反映了不同任务间的共同特征，v_y反映了不同任务间的区别，参数μ用于协调不同任务间的相似程度。从式(4)建立的模型可以看出，每一个分类模型f_y都有一个共同的参数w₀，也就是说分类模型假设每一个标签相互都是有关联关系的。但是实际的情况是，并非所有标签都存在关联关系。因此可以先在标签空间中聚类，从而将标签空间划分成许多具有标签相关性的子集，每一个示例包和标签之间的标签指示阵表示为Y。为了衡量标签之间的联系信息，在聚类的过程中使用的是Y列上的皮尔逊相关系数。

2.3 改进算法步骤

因为ω和d的双线性约束，所以式(7)是一个非凸优化模型。可以使用凸松弛算法或交替优化算法得到未标记样本估计好的类中心然后带入式(7)将其变为凸优化问题，使用凸优化软件包求解。这里选择使用求解速度更快的交替优化算法来处理相关问题。

SE-MIMLSVM+的算法流程如下：

①使用有标签的样本S_k训练SVM分类器。

②使用训练出来的SVM分类器对未标记的样本集U进行预测，利用预测值初始化d的值。

③在本轮迭代中，固定d的取值来优化变量α，然后再固定α的值来优化d的值。

④重复步骤③的迭代过程，直至达到训练所指定的迭代次数，得到未标记样本集U的类别平均值估计。

⑤根据得到的类别估计平均值和有标签样本集求解式(8)得到一个SVM分类器。

(5)对于未知标签的样本集X，使用T-Criterion^[15]准则的最终预测函数为：

3 实验

3.1 实验设置

在本文中，用半监督算法meanS3VM来优化改进E-MIMLSVM⁺算法，并将对比MIMLSVM⁺、MIMLSVM、E-MIMLSVM⁺这3个MIML算法，以此来验证改进算法的分类性能。其中3个对比算法中的参数分别根据文献[6]-[7]中的实验设置为最优。根据参考文献[13]将meanS3VM算法中的参数调整为最优。实验同样应用十折交叉法，将数据集分成训练集和测试集两份，各1 000个数据。实验期间，从训练集中无规则的选择100个样本作为有标记的训练集，并且剩下的900个作为无标记的训练集。由于本实验对比的3个多示例多标签算法无法训练未标记的样本，因此每次随机抽取1 000个样本用作训练集，其余样本用作测试集。反复10次实验以计算平均值以及方差。

实验使用周志华等提供的多示例多标签数据集，分为场景集和文本集^[6]，为了公平起见，算法均使用相同的样本集和测试集。第一部分为场景样本集，共有样本图像2 000个，数据集中的样本均被标记了一组类别标签。所有可能的类标签为沙漠、山脉、海洋、日落和树木，其中，属于一个以上的类(如海+日落)的样本的数目约占数据集的22%，许多组合类(如山+日落+树)约占0.75%，单个标签的样本数目约占77%。平均而言，每个示例都与1.24个类标签相关联。每幅图片通过SBN方法[16]用包含9个示例的示例包进行表示，每个示例为15维的特征向量。

第二个样本集是文本样本集，这个样本集来源于被广泛研究的Reuters-21578^[17]。该样本集分为7个类别标签，共2 000个样本文档。原始的数据集在删除标签集或主文本为空的文档后保留8 866了个文档，之后经过随机删除只有一个类标签的文档后，得到实验所用的含有2 000个样本文档的文本数据集。在该数据集中，每个文档平均所属于1.15±0.37个标签，属于多个标签的文档占比约为15%。通过使用滑动窗口^[18]技术将文档表示为一组示例。每个包中包括一组243维的特征向量，每一个向量代表了这篇文档的某一个部分。每一个包最少包含2个示例，最多包含26个示例，平均每一个包中含有3.56±2.71个示例。本实验中使用的场景样本集和文本样本集，其结构特征如表1所示。

3.2 实验结果

本实验选取多示例多标签领域的5个评价指标^[2]：Hamming loss、one-error、coverage、ranking loss和average precision。前4项评价指标的值越小，说明算法的分类效果越好；最后一项评价指标的值越大，说明分类效果越好。表2和表3分别显示了各个算法在两个集上的实验表现。表中“±”前面的值为实验进行十折交叉验证后，对5个评价指标的计算取值，“±”后面的值是计算得到的方差。

从表中可以看出，SE-MIMLSVM+算法前4项评价指标的值都是最小的，而average precision的值则是最大的，这说明改进算法在场景样本集和文本样本集上取得了优于其他多示例多标签算法的分类效果。

4 结论

本文讨论了基于退化策略并且使用SVM分类的多示例多标签算法E-MIMLSVM+。通过在E-MIMLSVM+算法中引入利用未标记样本学习并且求解速度较快的半监督支持向量机meanS3VM，对原始算法进行了改进。与其他多示例多标签算法相比，改进算法提高了分类准确率，增强了分类器的泛化能力。

参考文献

[1] 李斌，李丽娟.基于改进TSVM的未知网络应用识别算法[J].电子技术应用，2016，42(9)：95-98.

[2] ZHOU Z H，ZHANG M L，HUANG S J，et al.Multi-instance multi-label learning[J].Artificial Intelligence，2012，176(1)：2291-2320.

[3] 张磊，殷梦婕，肖超恩，等.基于优化型支持向量机算法的硬件木马监测[J].电子技术应用，2018，44(11)：17-20.

[4] 张苗.基于多示例学习的图像检索算法研究[D].合肥：中国科学技术大学，2017.

[5] READ J，PFAHRINGER B，HOLMES G，et al.Classifier chains for multi-label classification[J].Machine Learning，2011，85(3)：333.

[6] ZHOU Z H，ZHANG M L.Multi-instance multi-label learning with application to scene classification[A].Advances in Neural Information Processing Systems 19[C].MIT Press，2007：1609-1616.

[7] LI Y X，JI S W，KUMAR S，et al.Drosophila gene expression pattern annotation through multi-instance multi-label learning[J].IEEE/ACM Transactions on Computational Biology and Bionformatics，2012，9(1)：98-112.

[8] ZHANG M L，ZHOU Z H.M3MIML：a maximum margin method for multi-instance multi-label learning[C].Eighth IEEE International Conference on Data Mining.IEEE，2008：688-697.

[9] 周志华.机器学习[M].北京：清华大学出版社，2016.

[10] EVGENIOU T，PONTIL M.Regularized multi-task learning[A].Tenth ACM Sigkdd International Conference on Knowledge Discovery & Data Mining[C].ACM，2004：109-117.

[11] ZHANG J，GHAHRAMANI Z，YANG Y.Flexible latent variable models for multi-task learning[J].Machine Learning，2008，73(3)：221-242.

[12] EVGENIOU T，MICCHELLI C A，PONTIL M.Learning multiple tasks with Kernel methods[J].Machine Learning Research，2005，6(4)：615-637.

[13] LI Y F，KWOK J T，ZHOU Z H.Semi-supervised learning using label mean[A].International Conference on Machine Learning[C].ACM，2009：633-640.

[14] 李宇峰.半监督支持向量机学习方法的研究[D].南京：南京大学，2013.

[15] BOUTELL M R，LUO J，BROWN C.M.Learning multilabel scene classification[J].Pattern Recognition，2004，37(9)：1757-1771.

[16] MARON O，RATAN A L.Multiple-instance learning for natural scene classification[A].Proceedings of the 15th International Conference on Machine Learning[C].Morgan Kaufmann Publishers Inc，1998：341-349.

[17] SEBASTIANI F.Machine learning in automated text categorization[J].Computer Science，2015，34(1)：1-47.

[18] ANDREWS S，TSOCHANTARIDIS I，HOFMANN T.Support vector machines for multiple-instance learning[A].Advances in Neural Information Processing Systems[C].ResearchGate，2003：561-568.

作者信息:

李村合1，张振凯1，朱洪波2

1.中国石油大学(华东) 计算机与通信工程学院，山东青岛266580；

2.上海诺基亚贝尔股份有限公司青岛分公司fn部门，山东青岛266100；

基于LabVIEW的电磁超声无损检测系统的设计

★中国电工技术学会出品★ 致力于产业界与学术界融合创新的品牌会议 ①浏览会议通知,请戳下面标题 ☟ ☞会议通知︱2018第十二届中国电工装备创新与发展论坛暨第八届电工技术前沿问题学术论坛(第一轮) ② ...
机器都能监督自己学习，你为什么不行？

学习是人类一生的使命.谁成想,机器也同样悲惨地被人类赋予了这个使命.于是,参照人类大脑利用深度神经网络来解决特征表达的运作方式,机器从此走上了"深度学习"的路,一去不复返..... ...
终于有人把监督学习、强化学习和无监督学习讲明白了

导读:本文将讨论监督学习.无监督学习和强化学习这三种类型的机器学习. 作者:塞巴斯蒂安·拉施卡(Sebastian Raschka).瓦希德·米尔贾利利(Vahid Mirjalili) 来源:华章科 ...
机器学习入门01

原文链接:https://developers.google.com/machine-learning/crash-course/framing (监督式)机器学习的定义:机器学习系统通过学习如何组合 ...
【技术综述】多标签图像分类综述

图像分类作为计算机视觉领域的基础任务,经过大量的研究与试验,已经取得了傲人的成绩.然而,现有的分类任务大多是以单标签分类展开研究的.当图片中有多个标签时,又该如何进行分类呢?本篇综述将带领大家了解多标 ...
学术简报︱基于半桥LLC谐振的AC-DC变换器研究与设计

摘要苏州大学光电科学与工程学院的研究人员吕清松.许宜申.倪兆麟.马仕哲,在2019年第10期<电气技术>杂志上撰文指出,随着电力电子技术的飞速发展,高效.高功率密度已成为功率变换器的主要 ...
【学术论文】基于半控整流电路的无线电能传输技术的研究

摘要提出了一种无线电能传输最大效率恒压输出技术,该技术采用半控整流电路替代接收回路常用的二极管整流电路,并利用Boost电路调节输出电压.通过同时在线调节半控整流电路和Boost电路的占空比,实现系 ...
2021年木衣锦绣第四期学术论文（三）中国传统色彩体系建构新探 ——基于文献、实物和技艺的色彩量化...

中国传统色彩体系建构新探 --基于文献.实物和技艺的色彩量化分析与色谱生成实践李路珂清华大学建筑学院摘要:通过对中国传统色彩体系出版物和标准的梳理,发现中国传统色彩体系研究存在的不足.首先对中国 ...
【科研简讯】基于渲染对比学习和半监督学习的三维超声卵巢卵泡自动分割

MICS科研简讯第三十九期研究背景介绍今天为大家介绍一篇基于深度学习的三维超声卵巢卵泡自动分割的文章.三维超声成像是临床医师用于检查女性生殖器官(如卵巢)最常用的影像工具.卵巢功能的评价.卵泡的计 ...
论文推荐|生成对抗网图的半监督学习（CIKM’18）

论文题目 Semi-supervised Learning on Graphs with Generative Adversarial Nets 作者: Ming Ding,Jie Tang,Jie ...
学术论文摘要的规范表达示例

"独学而无友,则孤陋而寡闻"(<礼记·学记>),"利可共而不可独"(曾国藩). 知识共享,欢迎转发. 内容群发时间:星期一(语言文字)7:00,星期 ...
【学术论文】基于5G切片技术的区域应急解决方案研究

特约主编:朱雪田,北京邮电大学工学博士,教授级高级工程师,中关村国家自主创新示范区高端领军人才,现就职于中国联通网络技术研究院.长期从事4G/5G移动通信技术与业务创新研发工作,作为项目组长先后负责多 ...
【学术论文】基于线性时态逻辑的物联网操作系统安全性设计

摘要 : 根据物联网操作系统安全性设计的需求,同时结合在经典线性时态逻辑.逻辑程序设计.形式化模型检测理论方面的研究与工程实践探索,提出了一种应用于物联网操作系统安全性设计的方法论,并进行了工 ...
【学术论文】一种基于最小二乘法的AD转换在线校正方法

摘要 : 针对AD转换过程中实际物理量与转换后数字量之间存在的非线性问题,提出了一种软件在线校正方法,该方法是基于最小二乘法的最优化分段线性拟合方法.使用VS2010 C#编写上位机软件,用户 ...

【学术论文】基于半监督学习的多示例多标签改进算法

相关推荐