模型跨界成潮流OpenAI用GPT

2024-06-24 08:33:54

参与：魔王、杜伟、小舟

图像领域的GPT模型终于来了！OpenAI推出了用于图像分类的模型iGPT，该模型生成的特征在多个分类数据集上实现了当前SOTA性能，并且实现了良好的图像补全效果。

无监督和自监督学习，或者无人工标注数据的学习，这些都是机器学习领域长期存在的挑战。近期，BERT、GPT-2、RBERTa、T5等Transformer模型以及其他变体在一系列语言任务上实现了最佳性能。然而，在生成用于图像分类的强特征方面却始终没有出现性能强大的模型。

这是因为，与GPT-2和BERT这类依赖于词预测的无监督学习算法相比，像素序列无法清楚地包含它们所属图像的标签。

近日，OpenAI发布了一项新研究，旨在探索在图像上训练GPT-2的性能以及无监督准确率表现。研究者表示，BERT和GPT-2等Transformer模型是域不可知的，这意味着它们可以直接应用于任何形式的1D序列。

OpenAI研究者在图像上训练GPT-2，他们称该模型称为iGPT。结果发现这种模型似乎能够理解物体外观和类别等2D图像特征。iGPT生成的各种一致性图像样本可以证明这一点，即使没有人为标签的指导。

项目主页：https://openai.com/blog/image-gpt/

iGPT缘何能够成功呢？这是因为，在下一像素预测上训练的足够大的transformer模型最终可能学会生成具有清晰可识别物体的样本。一旦学会了生成此类样本，那么通过「合成分析」，iGPT将知道目标类别。实验表明，iGPT模型的特征在大量的分类数据集上实现了当前SOTA性能，以及在ImageNet数据集上实现了接近SOTA的无监督准确率。

我们先直观地看一下iGPT的效果。下图展示了，在CIFAR-10、CIFAR-100、STL-10和ImageNet数据集上，iGPT与当前最佳非iGPT模型的性能对比情况：

为了突出生成序列建模作为通用无监督学习算法的潜力，该研究特意使用了与GPT-2相同的Transformer架构，因而该模型需要更多计算才能生成与顶级无监督卷积网络相当的特征。结果表明，当面对一个正确模型先验未知的新领域时，大型GPT-2模型可以学习优秀特征，并且不需要领域特定的架构设计选择。

iGPT处理图像任务的效果如何

iGPT可实现较好的图像补全效果。不管是动物、建筑物、风景、运动场面、艺术作品，甚至表情包，它都可以实现不错的补全效果。

下图展示了iGPT生成的图像样本。研究者在采样过程中使用temperature1，且未使用束搜索或核采样等trick。研究者表示，以下所有样本均未经过挑选。

我们可以看出，几乎所有生成图像均包含清晰可识别的物体。

方法

OpenAI研究人员提出的方法包含两个阶段：预训练和微调。

在预训练阶段中，研究人员探索自回归目标和BERT目标，并使用序列Transformer架构来预测像素，而非语言token。

如下图所示，该方法首先对原始图像进行预处理，将其调整为低分辨率和1D序列；然后在自回归下一像素预测或掩码像素预测这两个预训练目标中选择一个；最后，利用linearprobe或微调，对这些目标学得的表征进行评估。

该研究在ImageNet上训练了三个transformer模型：iGPT-S、iGPT-M和iGPT-L，它们分别包含76M、455M和14亿参数。此外，研究者还基于ImageNet和网络图片的混合数据训练了iGPT-XL，它包含68亿参数。

由于使用密集注意力建模长序列的计算成本较高，因此该研究选择使用较低的分辨率：32x32、48x48和64x64。

分辨率继续降低可以进一步减少计算成本，但是之前研究表明在这种情况下，人类的图像分类能力会急剧下降。因此，该研究受早期颜色显示调色板的启发，创建了9-bit颜色调色板来表示像素。使用该调色板可以得到长度仅为标准1/3的输入序列，同时还能有效编码颜色。

实验结果

该研究使用两种方法来评估模型性能，二者均涉及下游分类任务。

方法1：linearprobe，即使用训练好的模型从下游数据集图像中提取特征，然后将logistic回归与标签进行拟合；

方法2：微调，基于下游数据集微调整个模型。

在没有潜变量的生成模型中，哪种表征效果最好？

下一像素预测任务与图像分类并不明显相关，最后一层的特征可能无法最好地预测物体类别。

该研究的实验结果表明，特征质量先是显著提升，然后逐渐放缓。这表明transformer生成模型通过以下两个阶段运行：

第一阶段：每个位置从周围语境中收集信息，以构建语境化图像特征；

第二阶段：使用语境化特征解决下一像素预测任务。

下图表明，特征质量严重依赖于模型层数。并且，与监督模型相反，下图中这些生成模型的最优特征出现在网络中段。

更好的生成模型学到的表征也更好

该研究执行的另一项实验试图在生成性能和特征质量之间建立联系。实验结果表明，模型规模的扩大和训练迭代次数的增加会带来更好的生成性能，而这可以直接转换为更好的特征质量。

在CIFAR和STL-10上的LinearProbe效果

研究者评估了不同模型使用linearprobe在CIFAR-10、CIFAR-100和STL-10数据集上的性能，发现该研究提出的方法优于其他监督和无监督迁移算法。甚至在完全微调的设置下，iGPT的性能仍具备竞争力。

在ImageNet上的LinearProbe效果

该研究使用linearprobe在ImageNet上进行性能评估。基于48x48图像训练的iGPT-L，使用1536个特征得到的最优层top-1准确率达到65.2%，超过了AlexNet。

下表展示了iGPT和当前最优自监督模型的linearprobe准确率对比情况：

BERT

由于像BERT这样的遮蔽语言模型在大多数语言任务上的性能都优于生成模型，因此该研究也在图像模型上评估了BERT的性能。

他们没有按照在之前所有像素的基础上预测下一个像素的方式来训练模型，而是遮蔽掉了15%的像素，然后训练模型基于未遮蔽的像素进行预测。研究者发现，尽管BERT模型的linearprobe性能明显较差，但在微调方面BERT模型仍然表现亮眼：

在低数据CIFAR-10分类任务上的性能

如下表所示，研究者在这一子域的竞争性基准上对iGPT-L进行了评估，结果发现基于非增强图像特征的简单linearprobe表现优于MeanTeacher和MixMatch，但弱于FixMatch。

iGPT的局限性

尽管该研究表明iGPT能够学习强大的图像特征，但是该方法仍存在很大的局限性。

由于该研究采用的是用于语言任务的GPT-2的通用序列Transformer，所以需要大量计算：iGPT-L在V100上大约需要训练2500天，而性能类似的MoCo模型大约需要训练70天。

此外，该研究用Transformer对低分辨率输入建模，而大多数自监督结果采用的是基于卷积的编码器，这些编码器可以轻松地处理高分辨率输入。可能需要一种新的架构，例如与域无关的多尺度Transformer，以实现进一步扩展。

考虑到这些局限性，该研究工作主要是概念证明，证明了基于Transformer的大型语言模型在一些新领域中可以学习优秀的无监督表征，而无需硬编码领域的知识。但是，训练这些模型需要大量的资源成本，而基于卷积神经网络的方法又具有更高的准确率，这让这些表征在视觉领域中无法实际应用。

最后，生成模型可能会呈现出偏差，这些偏差是模型训练所用的数据造成的。这些偏差中有许多都是有用的，例如假设棕色和绿色像素的部分代表叶子上覆盖的分支，然后用这种偏差继续生成图像。

但是，从公平性和代表性方面考虑，有些偏差是有害的。例如，如果模型建立了一种偏向男性的科学家视觉观念，那么它很有可能一直用男性而不是混合性别的人来完成科学家图像。研究者希望开发者能够更加关注系统的输入数据，并更好地了解输入数据与训练模型中偏差的关系。

结论

研究者表示，通过2D知识与scale之间的权衡，并从网络中部选择预测特征，序列Transformer的性能可以与顶级无监督图像分类卷积网络相媲美。

此外，值得注意的是，研究者将GPT-2语言模型直接用于图像生成，也得到了相应的实验结果。该结果表明，得益于简单性和通用性，基于足够计算量的序列Transformer可能是多个领域中学习优秀特征的有效方法。

【NLP】GPT：第一个引入Transformer的预训练模型

目前两种最重要的预训练语言模型,一种是前面介绍过的BERT,另外一种就是GPT. GPT出了两个版本,GPT1.0和GPT2.0,GPT2.0相对于GPT1.0差别不大,可以认为是它的增强版.本篇介绍 ...
回顾BART模型

最近在生成相关论文时,经常看到使用BART(Bidirectionaland Auto-Regressive Transformers,双向自回归变压器)模型作为基线比较,或在BART模型上进行修改. ...
2020年深度学习技术发展综述

来源:无人系统技术作者:王亚珅摘要:对深度学习领域的研究进行综合评述,并对其进一步发展方向进行分析.首先分析围绕注意力机制的深度学习技术最新研究成果,以及在自然语言处理领域取得突破性进展的巨型预训 ...
论文解读：Bert原理深入浅出

Bert 自 Google 于 2018 年发表至今,一直给人们带来惊喜,期间也陆陆续续因为Bert出现的原因多了不少新的岗位,甚至公司 JD 上都明确表明必须懂 Bert. 它在 11 项自然语言处 ...
NLP实操手册: 基于Transformer的深度学习架构的应用指南(综述)

人工智能算法与Python大数据致力于提供深度学习.机器学习.人工智能干货文章,为AI人员提供学习路线以及前沿资讯 23篇原创内容公众号点上方人工智能算法与Python大数据获取更多干货在右上 ...
NLP：NLP领域没有最强，只有更强的模型——GPT-3的简介、安装、使用方法之详细攻略

NLP:NLP领域没有最强,只有更强的模型--GPT-3的简介.安装.使用方法之详细攻略导读:NLP领域的模型,没有最大,只有更大.博主这几天也仔仔细细看了这篇长达75页的论文,光署名作者都有二三十 ...
万字解读：预训练模型最新综述！

每日干货 &每月组队学习,不错过 Datawhale学术作者:太子长琴,Datawhale意向成员如何在有限数据下训练出高效的深度学习模型?本文深入研究了预训练的前世今生,并带领读者一起回 ...
GPT-3：被捧上天的流量巨星，却有一个重大缺陷，很危险...

来源:nature 编辑:yaxin [新智元导读]去年当红的流量明星非GPT-3莫属,能答题.写文章,做翻译,还能生成代码,做数学推理,不断被人们吹捧.不过,过誉的背后也有人开始质疑,GPT-3真的 ...
GPT-2：OpenAI的NLP商业化野望

自然语言处理(NLP)技术正在生活的方方面面改变着我们的生活. 客厅的智能音箱在跟你每天的对话中飞速进步,甚至开始跟你"插科打诨"来适应你的爱好习惯. 电商客服总是能在第一时间回复 ...
60亿最强男重出江湖，柔术女神跨界成亮点丨格斗周解

本期格斗周解内容:MMA方面,关于UFC.Bellator.ONE冠军赛三大赛事的最新消息~ UFC方面 2018年,也就是在今年,UFC计划开展拳击比赛,总裁白大拿方面透露,UFC没有联系拳击四大组 ...
动车小姐姐跨界成“网红”，用流量守护旅客平安出行

在父母心中她"坚强善良不喊苦" 在同事心中她"踏实肯干反差萌" 在旅客眼中她"热心助人暖融融" 在网友眼中她"风趣幽默段子 ...
2018年厨电市场分析：零售下滑或达20%，渠道跨界成新趋势

宏观环境稳中有忧厨电市场出现大幅下滑 2018年年末,厨电行业开始流行这样一句话:悲惨的2018年终于过去了,但是更为悲惨的2019年已经来了,然而,2019年很有可能是未来五年行情最好的一年. 可 ...
随笔||从李白“跨界”成“三仙”所想到的

从李白"跨界"成"三仙"所想到的徐进成||江苏 5月12日,打开冬歌文苑平台,一气呵成,读完了文友李品刚老师新作<游李白墓园>一文.李白,大凡天下 ...
“跨界”成时髦上市公司也不例外

案例一:万科跨界养猪前段时间万科招聘平台的一则"招募令"引发热议,万科的食品事业部共发布五个社招岗位,包括猪场拓展经理.聚落化猪场总经理.养猪场预结算专业经理.猪场开发报建专员. ...
体育老师跨界成多学科“全能手”

郝翠丽是全国模范教师,山东省特级教师,山东省第四届齐鲁名师建设工程人选,从教25年来,她从一名体育教师跨界成为小学语文.道德与法治多学科教师,引领学生收获知识.享受运动带来的快乐. 山东教育卫视< ...
引燃AI社区，不用跨界也能从文本生成图像，OpenAI新模型打破自然语言与视觉次元壁

艺术创作的事,以后人类只要动手打几个字,其他的交给 AI 就行了. 自然语言与视觉的次元壁正在被打破.这不,OpenAI 最近连发大招,提出两个连接文本与图像的神经网络:DALL·E 和 CLIP.D ...
破茧成蝶，一场史无前例的跨界盛宴！

也许你听过无数遍各种版本的<梁祝>, 你见过许多弹眼落睛的高定时装秀, 你欣赏过多场超凡脱俗的芭蕾舞表演. 可是,你见过将这三颗在各自领域璀璨夺目的钻石,镶嵌在一起的华丽盛宴吗? 7月, ...
一所学校的农场、商店，如何成了学生跨界学习的创新阵地？

著名教育家陶行知先生说:生活即教育. 教育是从生活中来,从生活中展开. 用生活的经验来教育学生,是学生最为喜欢的方法,也是行之有效的最好方法. 加强劳动与实践教育是提高中小学生综合素质的有效途径,但近 ...

模型跨界成潮流OpenAI用GPT

相关推荐