TransUNet：用于医学图像分割的强大变压器编码器 / 开普饭

重磅干货，第一时间送达

小白导读

论文是学术研究的精华和未来发展的明灯。小白决心每天为大家带来经典或者最新论文的解读和分享，旨在帮助各位读者快速了解论文内容。个人能力有限，理解难免出现偏差，建议对文章内容感兴趣的读者，一定要下载原文，了解具体内容。

摘要

医学图像分割是发展医疗保健系统，特别是疾病诊断和治疗计划的必要前提。在各种医学图像分割任务中，ushaped架构(又称U-Net)已经成为事实上的标准，并取得了巨大的成功。然而，由于卷积运算的固有局部性，U-Net通常在明确地建模远程依赖方面存在局限性。为序列到序列预测而设计的transformer，已经作为具有先天全局自我注意机制的替代架构出现，但由于底层细节不足，可能导致定位能力有限。在本文中，作者提出了具有变压器和u网两种优点的TransUNet，作为医学图像分割的一种强有力的替代方案。一方面，变压器从卷积神经网络(CNN)特征映射中编码标记化的图像补丁，作为提取全局上下文的输入序列。另一方面，解码器对编码的特征进行采样，然后将其与高分辨率的CNN特征地图相结合，以实现精确定位。

作者认为，变压器可以作为强大的编码器的医学图像分割任务，结合U-Net增强更精细的细节，恢复局部空间信息。TransUNet在不同的医疗应用中，包括多器官分割和心脏分割，都取得了优于各种竞争方法的性能。

代码链接：https://github.com/Beckschen/TransUNet

论文创新点

作者提出了首个医学图像分割框架TransUNet，该框架从序列到序列预测的角度建立了自我注意机制。为了弥补变压器带来的特征分辨率损失，TransUNet采用了一种混合的CNN- transformer架构，利用来自CNN特征的详细高分辨率空间信息和变压器编码的全局上下文。受U型结构设计的启发，由变压器编码的自我关注的特征被更新采样，与编码路径中跳过的不同高分辨率CNN特征相结合，从而实现精确定位。作者表明，这样的设计允许作者的框架保持变压器的优点，也有利于医学图像分割。实证结果表明，与以往基于cnn的自我注意方法相比，作者基于transformer的体系结构提供了更好的利用自我注意的方法。此外，作者观察到，更密集地结合低级特征通常会导致更好的分割精度。大量的实验证明了该方法在各种医学图像分割任务中的优越性。

框架结构

框架概述

(a)变压器层示意图;(b)提出的TransUNet的结构。

实验结果

通过可视化对不同方法进行定性比较。从左到右:(a) Ground Truth， (b) TransUNet， (c) R50- vitc - cup， (d) R50- AttnUNet， (e) R50- u - net。作者的方法预测更少的假阳性和保持更好的信息。

结论

变形金刚是一种天生具有强大自我注意机制的建筑。在这篇论文中，作者提出了第一个研究研究变压器在一般医学图像分割中的应用。为了充分利用变压器的力量，提出了TransUNet，它不仅将图像特征作为序列来编码强全局上下文，还通过u形混合建筑设计来很好地利用低层CNN特征。TransUNet作为一种替代框架用于医学图像分割，其性能优于各种竞争方法，包括基于cnn的自我注意方法。

论文链接：https://arxiv.org/pdf/2102.04306.pdf

每日坚持论文分享不易，如果喜欢我们的内容，希望可以推荐或者转发给周围的同学。

#投稿通道#

让你的论文被更多人看到

如何才能让更多的优质内容以更短路径到达读者群体，缩短读者寻找优质内容的成本呢？答案就是：你不认识的人。

总有一些你不认识的人，知道你想知道的东西。深度学习爱好者或许可以成为一座桥梁，促使不同背景、不同方向的学者和学术灵感相互碰撞，迸发出更多的可能性。

深度学习爱好者鼓励高校实验室或个人，在我们的平台上分享各类优质内容，可以是最新论文解读，也可以是学习心得或技术干货。我们的目的只有一个，让知识真正流动起来。

📝 来稿标准：

· 稿件确系个人原创作品，来稿需注明作者个人信息（姓名+学校/工作单位+学历/职位+研究方向）

· 如果文章并非首发，请在投稿时提醒并附上所有已发布链接

· 深度学习爱好者默认每篇文章都是首发，均会添加“原创”标志

​TransUNet：用于医学图像分割的强大变压器编码器

相关推荐

TransUNet：用于医学图像分割的强大变压器编码器