Multi-Scale Densenet续作?搞定Transformer降采样,清华联合华为开源动态ViT!
极市导读
本文介绍了一篇清华大学黄高研究团队和华为联合研究的一篇关于动态Transformer 的最新工作,该项工作发现采用定长的token序列表征数据集中所有的图像是一种低效且次优的做法,并提出一种可针对每个样本自适应地使用最合适的token数目进行表征的动态ViT模型。>>加入极市CV技术交流群,走在计算机视觉的最前沿
先验知识
1. 论文和代码地址
2. Motivation
3. 方法
3.1.1. Overview
3.1.2. Feature Reuse
3.1.3. Relation Reuse
3.1.4. Exit(Adaptive Inference)
4.实验
4.1. 在ImageNet上的实验结果
4.2. CIFAR-10/100上的结果
4.3. Feature Reuse的消融实验
4.4. Relation Resue的消融实验
4.5. 可视化
5. 总结
参考文献
本文亮点总结
如果觉得有用,就请分享到朋友圈吧!
赞 (0)