什么是小样本学习？这篇综述文章用166篇参考文献告诉你答案

2024-08-07 11:29:23

机器之心报道

参与：魔王

什么是小样本学习？它与弱监督学习等问题有何差异？其核心问题是什么？来自港科大和第四范式的这篇综述论文提供了解答。

数据是机器学习领域的重要资源，在数据缺少的情况下如何训练模型呢？小样本学习是其中一个解决方案。来自香港科技大学和第四范式的研究人员综述了该领域的研究发展，并提出了未来的研究方向。

这篇综述论文已被 ACM Computing Surveys 接收，作者还建立了 GitHub repo，用于更新该领域的发展。

论文地址：https://arxiv.org/pdf/1904.05046.pdf

GitHub 地址：https://github.com/tata1661/FewShotPapers

机器学习在数据密集型应用中取得了很大成功，但在面临小数据集的情况下往往捉襟见肘。近期出现的小样本学习（Few-Shot Learning，FSL）方法旨在解决该问题。FSL 利用先验知识，能够快速泛化至仅包含少量具备监督信息的样本的新任务中。

这篇论文对 FSL 方法进行了综述。首先，该论文给出了 FSL 的正式定义，并厘清了它与相关机器学习问题（弱监督学习、不平衡学习、迁移学习和元学习）的关联和差异。然后指出 FSL 的核心问题，即经验风险最小化方法不可靠。

基于各个方法利用先验知识处理核心问题的方式，该研究将 FSL 方法分为三大类：

数据：利用先验知识增强监督信号；

模型：利用先验知识缩小假设空间的大小；

算法：利用先验知识更改给定假设空间中对最优假设的搜索。

最后，这篇文章提出了 FSL 的未来研究方向：FSL 问题设置、技术、应用和理论。

论文概览

该综述论文所覆盖的主题见下图：

我们选取介绍了该综述论文中的部分内容，详情参见原论文。

什么是小样本学习？

FSL 是机器学习的子领域。

我们先来看机器学习的定义：

计算机程序基于与任务 T 相关的经验 E 学习，并得到性能改进（性能度量指标为 P）。

基于此，该研究将 FSL 定义为：

小样本学习是一类机器学习问题，其经验 E 中仅包含有限数量的监督信息。

下图对比了具备充足训练样本和少量训练样本的学习算法：

FSL 方法分类

根据先验知识的利用方式，FSL 方法可分为三类：

FSL 方法解决少样本问题的不同角度。

基于此，该研究将现有的 FSL 方法纳入此框架，得到如下分类体系：

数据

此类 FSL 方法利用先验知识增强数据 D_train，从而扩充监督信息，利用充足数据来实现可靠的经验风险最小化。

如上图所示，根据增强数据的来源，这类 FSL 方法可分为以下三个类别：

模型

基于所用先验知识的类型，这类方法可分为如下四个类别：

算法

根据先验知识对搜索策略的影响，此类方法可分为三个类别：

文章最后从问题设置、技术、应用和理论四个层面探讨了小样本学习领域的未来发展方向。

TraND：无监督跨域步态识别的可转移邻域发现

重磅干货,第一时间送达小白导读论文是学术研究的精华和未来发展的明灯.小白决心每天为大家带来经典或者最新论文的解读和分享,旨在帮助各位读者快速了解论文内容.个人能力有限,理解难免出现偏差,建议对文章 ...
深度学习行人重识别ReID最新综述与展望

今天 arXiv 新出论文 Deep Learning for Person Re-identification: A Survey and Outlook,作者调查了245篇近两三年的行人重识别(P ...
一文看尽 27 篇 CVPR2021 2D 目标检测论文

作者丨二玖编辑丨极市平台极市导读本文对我们汇总的 CVPR 2021 检测大类中的2D目标检测领域的论文进行了盘点,将会依次阐述每篇论文的方法思路和亮点.在极市平台回复"CVPR21检 ...
论文写作经验分享（笔者完成论文后的总结）

论文写作经验分享（笔者完成论文后的总结）
基于深度学习的脑电图识别综述篇(二)数据采样及处理

更多技术干货第一时间送达作者|Memory逆光本文由作者授权分享导读脑电图(EEG)是一个复杂的信号,一个医生可能需要几年的训练并利用先进的信号处理和特征提取方法,才能正确解释其含义.而如今机 ...
论文速递 | 一份超全易懂的深度学习在图像去噪的综述

加入极市专业CV交流群,与6000+来自腾讯,华为,百度,北大,清华,中科院等名企名校视觉开发者互动交流!更有机会与李开复老师等大牛群内互动! 同时提供每月大咖直播分享.真实项目需求对接.干货资讯汇总 ...
最新开源LiDAR数据集LSOOD：四种常见的室外物体分类

标题:最新开源LiDAR数据集LSOOD:四种常见的室外物体分类作者:Y Tian 来源:https://github.com/Tian-Yifei/LSOOD-LiDAR-Scanning-Out ...
2000～2009年历届CVPR最佳论文，代码及解读汇总

同时提供每月大咖直播分享.真实项目需求对接.干货资讯汇总,行业技术交流.关注极市平台公众号 ,回复加群,立刻申请入群~ 作者:sophie 极市原创文章,未经允许,请勿转载本文汇总了从 200 ...
对比两篇单基因文章，一篇7.5分，一篇未发表

今天给大家介绍一篇7.5分的单基因免疫相关分析,并跟我们的未发表模板文章一点点对比.对于单基因的分析,挑选基因最为关键.小编认为容易发表的基因要符合以下几点(符合条件越多越好): 1 在多种肿瘤中该基 ...
如何写出一篇好文章？→学习这套【九宫格写...

如何写出一篇好文章? →学习这套[九宫格写作法] 11张知识宝图,原图奉上 #关注我# #每天分享干货#
想学习电影专业？看完这篇文章再做决定！

VO ART UNION 近年来考取国外名校的电影专业成为越来越多人的选择,但是你真的了解电影专业么? 如何申请国外的电影专业呢? 美国的电影专业到底都在学些什么? 继续往下看,你会获得所有答案. ...
费曼学习法10分钟背诵一篇英语文章（你从未见过的黑科技）

费曼学习法10分钟背诵一篇英语文章（你从未见过的黑科技）
【完结】重磅！深度学习计算摄影的12篇干货文章

计算摄影是指使用数字计算而不是光学处理的数字图像捕获和处理技术.计算摄影可以提高照相机的能力,或者引入基于胶片的摄影根本不可能的特征,或者降低照相机元件的成本或尺寸(本段来自维基百科描述).当前深度学 ...
一以贯之做好学习这篇大文章

"学者非必为仕,而仕者必如学".学习是为政之基.为官之途,是领导干部健康成长.提高素质.增强本领.不断进步的必由之路.做一名合格的领导干部,就要善于通过学习扬弃旧义.探求新知,把学 ...
学习从一篇10+文章看反义lncRNA如何调控基因表达

摘自小张聊科研:长链非编码RNA(lncRNA)是一类真核生物中长度大于200 nt的非编码RNA分子:虽然关于lncRNA已有很多研究,然而目前只有少量lncRNA的功能完全明晰.依据其与邻近基因的 ...
学习太极线必须看的几篇文章

什么是太极线 <量线捉涨停>里讲过,太极线就是阴阳平衡线.股市的普遍规律就是阴阳平衡,太极线就是对最近的阴阳力量和力道的刻画.它是由两根特定的量柱所对应的特定价柱连线而成,形成阴阳平衡.量 ...
一篇半页综述引自己200+篇文章：野鸡大学+水牛作者+野鸡杂志

今天科研菌看到一篇很有"意思"的文章! 短短几百字的正文! 发在某野鸡杂志上! 此水牛作者还自引自写! 作者机构顺带碰瓷下著名的南加州大学! 文章的题目是:Investigatio ...

什么是小样本学习？这篇综述文章用166篇参考文献告诉你答案

相关推荐