【机器学习基础】多标签分类的玩法

机器学习算法与Python实战

长期跟踪关注统计学、数据挖掘、机器学习算法、深度学习、人工智能技术与行业发展动态,分享Python、机器学习等技术文章。回复机器学习有惊喜资料。
216篇原创内容
Official Account
作者:Andy Wang 机器之心编译  编辑:Geek AI
这可能是最实用的多标签分类小贴士。
众所周知,二分类任务旨在将给定的输入分为 0 和 1 两类。而多标签分类(又称多目标分类)一次性地根据给定输入预测多个二分类目标。例如,模型可以预测给定的图片是一条狗还是一只猫,同时预测其毛皮是长还是短。
在多分类任务中,预测目标是互斥的,这意味着一个输入可以对应于多个分类。本文将介绍一些可能提升多标签分类模型性能的小技巧。
模型评估函数
通过在「每一列」(分类标签)上计算模型评估函数并取得分均值,我们可以将大多数二分类评估函数用于多标签分类任务。对数损失或二分类交叉熵就是其中一种评估函数。为了更好地考虑到类别不均衡现象,我们可以使用 ROC-AUC 作为评估函数。
图 1:ROC-AUC 曲线
建模技巧
在介绍构建特征的技巧之前,本文将介绍一些设计适用于多标签分类场景的模型的小技巧。
对于大多数非神经网络模型而言,我们唯一的选择是为每个目标训练一个分类器,然后将预测结果融合起来。为此,「scikit-learn」程序库提供了一个简单的封装类「OneVsRestClassifier」。尽管这个封装类可以使分类器能够执行多标签任务,但我们不应采用这种方法,其弊端如下:(1)我们会为每个目标训练一个新模型,因此训练时间相对较长。(2)模型无法学习不同标签之间的关系或标签的相关性。
第二个问题可以通过执行一个两阶段训练过程来解决。其中,我们将目标的预测结果和原始特征相结合,作为第二阶段训练的输入。这样做的缺点是,由于需要训练的模型数量是之前的两倍,训练时间将大幅度提升。神经网络(NN)则适用于这种场景,其中标签的数量即为网络中输出神经元的数量。我们可以直接将任意的二分类损失应用于神经网络模型,同时该模型会输出所有的目标。此时,我们只需要训练一个模型,且网络可以通过输出神经元学习不同标签的相关性,从而解决上文中提出的非神经网络模型的两个问题。
图 2:神经网络
有监督的特征选择方法
在开始特征工程或特征选择之前,需要对特征进行归一化和标准化处理。使用「scikit-learn」库中的「Quantile Transformer」将减小数据的偏度,使特征服从正态分布。此外,还可以通过对数据采取「减去均值,除以标准差」的操作,对特征进行标准化处理。该过程与「Quantile Transformer」完成了类似的工作,其目的都是对数据进行变换,使数据变得更加鲁棒。然而,「Quantile Transformer」的计算开销较高。
大多数算法都是为单一目标设计的,因此使用有监督特征选择方法稍微有些困难。为了解决这个问题,我们可以将多标签分类任务转化为多类分类问题。「Label Powerset」就是其中一种流行的解决方案,它将训练数据中的每一个独特的标签组合转化为一个类。「scikit-multilearn」程序库中包含实现该方案的工具。
图 3:Label Powerset 方法
在完成转换后,我们可以使用「信息增益」和「卡方」等方法来挑选特征。尽管这种方法是可行的,但是却很难处理上百甚至上千对不同的独特标签组合。此时,使用无监督特征选择方法可能更合适。
无监督特征选择方法
在无监督方法中,我们不需要考虑多标签任务的特性,这是因为无标签方法并不依赖于标签。典型的无监督特征选择方法包括:
  • 主成分分析(PCA)或其它的因子分析方法。此类方法会去除掉特征中的冗余信息,并为模型抽取出有用的特征。请确保在使用 PCA 之前对数据进行标准化处理,从而使每个特征对分析的贡献相等。另一个使用 PCA 的技巧是,我们可以将该算法简化后的数据作为模型可选择使用的额外信息与原始数据连接起来,而不是直接使用简化后的数据。

  • 方差阈值。这是一种简单有效的降低特征维度的方法。我们丢弃具有低方差或离散型的特征。可以通过找到一个更好的选择阈值对此进行优化,0.5 是一个不错的初始阈值。

  • 聚类。通过根据输入数据创建聚类簇来构建新特征,然后将相应的聚类分配给每一行输入数据,作为一列新的特征。

图 4:K - 均值聚类
上采样方法
当分类数据高度不均衡时,可以使用上采样方法为稀有类生成人造样本,从而让模型关注稀有类。为了在多标签场景下创建新样本,我们可以使用多标签合成少数类过采样技术(MLSMOTE)。
代码链接:https://github.com/niteshsukhwani/MLSMOTE
该方法由原始的 SMOTE 方法修改而来。在生成少数类的数据并分配少数标签后,我们还通过统计每个标签在相邻数据点中出现的次数来生成其它相关的标签,并保留出现频次高于一半统计的数据点的标签。
原文链接:https://andy-wang.medium.com/bags-of-tricks-for-multi-label-classification-dc54b87f79ec
(0)

相关推荐

  • 机器学习在静息态功能磁共振成像中的应用

    机器学习技术在静息态功能磁共振成像(rs-fMRI)数据分析方面已经获得了突出地位.在这里,作者对各种非监督和有监督机器学习在rs-fMRI的应用进行了总结.作者在本文中提供了rs-fMRI中机器学习 ...

  • 新思路!商汤开源利用无标注数据大幅提高精度的人脸识别算法

    人脸识别是最近几年计算机视觉领域取得长足进步的领域,这得益于不断进步的深度学习强大的模型拟合能力和有标注的大型数据集的建立,已经出现了用于人脸识别的有标注的百万量级的数据集. 但继续扩大规模数据集变得 ...

  • ICCV2021 Oral | UNO:用于“新类发现”的统一目标函数,简化训练流程!已开源!

    ▊ 写在前面 在本文中,作者研究了新类发现(Novel Class Discovery (NCD))的问题.NCD的目标是通过利用包含不同但相关类的标记集的先验知识来推断未标记集中的新对象类别 .现有 ...

  • 科普 | 自监督视觉特征学习

    从此不迷路 计算机视觉研究院 计算机视觉研究院 主要由来自于大学的研究生组成的团队,本平台从事机器学习与深度学习领域,主要在人脸检测与识别,多目标检测研究方向.本团队想通过计算机视觉战队平台打造属于自 ...

  • 【生成模型】关于无监督生成模型,你必须知道的基础

    大家好,小米粥销声匿迹了很长一段时间,今天又杀回来啦!这次主要是介绍下生成模型的相关内容,尤其是除了GAN之外的其他生成模型,另外应部分读者要求,本系列内容增添了代码讲解,希望能使大家获益,更希望大家 ...

  • 【图像分类】简述无监督图像分类发展现状

    无监督图像分类问题是图像分类领域一项极具挑战的研究课题,本文介绍了无监督图像分类算法的发展现状,供大家参考学习. 作者 | 郭冰洋 编辑 | 言有三 1 简介 近年来,深度学习在图像识别领域取得了前所 ...

  • 机器学习简介

    随着大数据的爆发,以及计算机算力的加强,以机器学习为代表的人工智能领域逐渐火热起来.机器学习有以下几个构成要素 1. 数据,大数据是必备条件,是机器学习的输入信息,基于大数据,才使得模型的训练效果更好 ...

  • AI的发展(一)

    人工智能是集合了计算机科学逻辑学生物学心理学和哲学等众多学科,在语音识别图像处理自然语言处理自动定理证明及智能机器人等应用领域取得了显著成果人工智能在社会发展中扮演着不可或缺的角色人工智能在提升劳动效 ...

  • “技”多不压身!瑜伽轮的10个基础玩法,9种功效有趣又有效!

    辅具,是瑜伽练习中非常重要的工具. 艾扬格大师说:"没有人不用辅具,你站的地面就是辅具." 瑜伽轮是瑜伽辅具的一种,很多瑜伽馆在招聘老师的时候,都会注明优先录用懂得一些特色课程的老 ...

  • 抖音书单还可以做吗?零基础玩法,做好这几点,月入过万很轻松

    很多新项目在刚兴起的时候,一般会有很多人觉得这个好做,就纷纷涌入,过了 一段时间之后,大部分人发现做的人太多,竞争太激烈,就慢慢转去做其他的项目了,像抖音的书单项目就是如此.在准哥看来,其实这就是一个 ...

  • 抖音书单账号玩法?零基础快速上手,方法在这里!

    抖音书单账号视频制作简单,赚钱也是非常暴力的一个项目,制作过程所需时间和成本低,大家如果平时刷抖音,会看到很多关于励志方面的正能量美文视频,这类视频的播放量非常高,他们的赚钱模式主要是通过后期开通商品 ...

  • 拳王公社:小白零基础靠副业年赚30W玩法,看懂一半至少年赚10W!

    昨天,拳王分享了一篇<能赚钱的创业好项目?揭秘90后年赚30W逆袭案例!读懂他网络创业赚钱的3点核心!>,讲了一个90后草根逆袭的创业励志故事. 今天,我们分享的是:<大揭秘小白零基 ...

  • 滑板玩法及分类介绍

    这要从哪写起呢 讲滑板的发展历史估计也会很冗长,那就从现在的滑板分类给你们说说吧 滑板的结构主要由三部分组成:板面.桥(支架).轮 板面和轮应该都懂,桥就是连接板面和轮的重要结构,一般长这样 然而 ( ...

  • 2020年新手必知的自媒体玩法,让你零基础也能速成大神!

    越来越多的人加入自媒体行业,可能对于从来没有接触过自媒体的新手来说,自媒体是一件很神秘的事物,因为有人能轻松月入过万,而有的坚持几年却收入平平,其实是没掌握好方法,盲目加速不如停步,方法对了就成功了一 ...

  • 实战解答店铺人群标签玩法

    2020年以来淘宝规则改版后,淘宝流量起爆周期比原来周期长了,非标品类目尤其明显. 去年的时候大家都还在玩产值权重,产值到一定触发点流量就起飞.而今年淘宝把产值的权重削弱了,标签的权重占比提高了,所以 ...

  • 人群标签玩法|每日一课

    2020年以来淘宝规则改版后,淘宝流量起爆周期比原来周期长了,非标品类目尤其明显. 去年的时候大家都还在玩产值权重,产值到一定触发点流量就起飞.而今年淘宝把产值的权重削弱了,标签的权重占比提高了,所以 ...

  • 涨知识 | 油画棒的十种创意玩法!这些基础技法你一定要知道~

    油画棒是一种非常有魅力的绘画工具,并不像大家想象的那样"小儿科". 油画棒可以有 丰富的色彩 细腻的表达 热情的笔触 油画棒=蜡笔? 一种是油质,一种是蜡质. 油画棒比蜡笔要软一些 ...