谈一谈UNet图像分割 / 开普饭

作者丨呼啦圈正在输入中

来源丨GiantPandaCV

编辑丨极市平台

极市导读

这篇文章主要针对于图像分割的算法的一些理解，主要是一个比较经典的UNet系列的网络的认识。最后希望看完这篇文章的读者可以有所收获，对于一些个人的理解欢迎大家批评指正，希望可以和大家一起交流进步。

一、引言

yolov4、v5发布之后，在卷积上改进感觉也快达到一个顶峰了，在卷积神经网络的设计，在很多大佬的眼里估计都是一样的了，每一个新的改进或者检测框架的提出，可能都会看到之前框架的影子，也有人把在图像检测上的改进称之为“搭积木”；

在这之后，可能在图像上的各大论文都将重心放在Transformer上了，Transformer在CV上的论文也是变得越来越多了，图像分割做为图像的一个领域当然也不能落下，SwinUnet可以说终于让Transformer在图像分割中也得到了露脸的机会。

不过，基于Transformer在图像方面上的应用，具体在实际落地的中，可能也会很快了。本文可能还是要从最经典的图像分割网络UNet开始说一说这个比较古老的图像分割系列了。

虽然现在算法越来越依靠在数据上“做手脚”，但是也不能忽视网络的设计的技巧和思想，掌握一个优秀的设计思想，就可以天马行空、设计出飘逸的算法。

二、图像分割的絮叨

图像分割作为像素级的精细分类，可以让算法做一些精细活，这种精细活体现在医学上的应用（个人觉得医学领域是一个神奇也很有价值的领域），UNet在医学图像上的分割在当时有着不俗的表现力，整个网络的设计也是非常精妙的，其网络的设计的核心的思想在当年与yolov3有着相似之处，随着后面UNet的几个系列乃至现在YOLO的v4和v5，它们最核心的设计思想都有着异曲同工之妙，那就是：信息融合、位置不偏移。

其实，在对网络的设计的过程中，始终保持着这两点，就可以设计出一个比较好的网络。（但是，这也只是开始的一步，网络的设计还有很多的因素要考虑，这里就不一一叙述了，相信每个人都会有着经验性的理解）。

1. UNet网络的技巧和思想

终于进入正题了，铺垫了好多文字了，就从UNet的设计开始说起吧，相信网上也有比较多的图像分割结构设计的一些套路

A、上采样+下采样作为整体的网络结构（Encoder-Decoder）
B、多尺度的特征融合
C、信息流通的方式
D、获得像素级别的segment map

UNet最初的设计也是使用在医学影像的分割，通过经典的编解码结构、卷积、池化、ReLU激活函数，进行设计UNet的技巧

不用Padding，防止位置发生偏移
上采样使用插值法+conv，而不使用转置卷积等上采样方法，让特征图保持着均匀的色差
使用skip connection更好的进行信息融合

2. UNet++

从UNet++开始，网络的设计就开始注意原始图像的位置信息，还有就是整个网络的信息融合的能力。

所以，UNet++通过一系列尝试，最终设计成稠密连接，同时有长连接和短连接，并且将UNet中间空心的位置填满；

可以抓取不同层次的特征/不同大小的感受野。UNet++横向看可以看做一个稠密结构的DenseNet。

3. UNet3+

UNet++只是针对于同一尺度的稠密连接，而UNet3+则是跨尺度的稠密连接

UNet3+横纵信息互相交融，像极了国内高铁的“八横八纵”的高铁网，可以获得更大范围的信息融合与流通。又一次感觉很多算法上的设计思想都有异曲同工之妙，亦或者说是源于生活。

当然，UNet3+效果在医疗图像上分割有着不俗的效果，还有一部分是来源于其精心设计的损失函数MS-SSIM，其作为UNet3+组合损失函数的一部分，也会在提点上有着一定的作用（算法除了模型设计，当然还逃脱不了损失的设计）。

4. U2Net

这个网络的设计，给我的一个感觉就是很飘逸了，这是UNet系列改进的另一条路（我个人觉得，作者对于卷积、池化的使用达到了一个很高的水平，这是在一些常规的设计中还是比较难看到的，用简单的组件设计出一个很优秀的算法）。

嵌套UNet的方式，不可谓不是一种天秀的方法；同时通过膨胀卷积的使用，在不增加计算量的情况下，获得了很大的感受野，整个网络看起来变得很深，但是在参数量上的控制，已经达到了一种炉火纯青的地步。

不过，这篇论文的实验的数据集不在是针对医疗图像，也没有去做实验去比较；但是，U2Net为了获得更大的感受野，个人觉得在位置信息上丢失的还是比较多的，在对于位置信息的表现力，可能是有所欠缺的。

二、对于改进UNet的见解

上面说的内容没有说的特别繁琐，这些内容网上有着非常细致的解读（因为上面的技术也是2021年之前的知识点了，可能也算是相对来说比较古老的技术了，大家估计都听过或者看到过一些解读），本文就挑核心的点进行介绍，让大家在对上面的内容有了一个认识，并引出我下面的一些理解。

应该说很多人，其实都喜欢在UNet进行改进，换个优秀的编码器，然后自己在手动把解码器对应实现一下。至于为什么要选择UNet上进行改进，可能是因为UNet网络的结构比较简单，还是比较好进行改进的，而且UNet的效果，在很多场景下的表现力可能都是差强人意的。

但是，直接对UNet进行简单的替换编解码器，效果应该也是差强人意或者效果就是很差的；之前也有一些同事，在对UNet进行改进的时候，也会遇到效果不好的问题。直接对UNet改进，个人认为有两个本质的原因会影响网络的效果。

首先，原始的UNet在编码器的网路结构是很浅的，同时没有加padding，使得解码器获取编码器的信息时，位置信息丢失的不会很严重；但是一旦选择一个比较深的网络作为编码器（一般的特征提取的网络会加padding），使得位置信息丢失的相对来说是很严重的，在解码器获取到对应编码器的信息时，就已经产生了很大的偏移，再经过一个同样深的解码器，那么位置偏移就会变得更加严重，效果不好就可以解释的通了。

不过上面都是针对于直接用其他优秀的特征提取网络直接改进UNet的情况。

个人认为，UNet上的改进一定要认识到最原始的设计思路，以及它相对于后面系列的一个劣势，就是信息融合、位置不偏移。

其实，信息融合、位置偏移在yolov4、v5中也得到了体现，v4和v5对于网络的改进思路也是紧紧抓住了这两个点（当然也有其他非常重要或者新颖的点，但是这两点一定是核心的），后期对于UNet进行改进的网络都是在对信息融合上有着独到的理解，这也是后面改进的网络比较难以再进行优化的一个原因，要想对UNet有着非常独到的新颖的改进，还是比较有难度的（Swin-UNet是Transformer在图像上的表现，我也不太好评价）。

如果非要在UNet上通过替换编解码器的方式（用现有的优秀的特征提取器）进行改进时，可以借鉴UNet++和UNet3+的思想，横纵信息的流通，还有就是padding上的特殊处理、能不能更好的进行反向传播、位置偏移上的特殊处理、不要选择太深的网络、卷积核的大胆设计这几个方面出发；

最后，其实分割网络可以尝试其他的分割模型，Deeplab系列也是一个比较好的选择，对主干的修改也相对容易。

三、总结

个人的感觉对于这种网络的设计、代码的写法要有天马行空的想象力，代码写起来也像武侠小说中那种飘逸感；同时，算法设计思想是很重要的，如果单纯的替换主干这种事情，都可以当做算法的设计的话，那岂不是人人都可以做算法工程师了（这也是单纯的从模型的角度来说）；不过优秀的算法设计的思想很往往是很困难的，因为不可能每个人都是“聪明绝顶”的高手，可能有时候需要像有机化学中苯环的结构图一样，需要做一个奇幻的美梦。
这篇文章，我的个人的理解比较多，可能也有不正确的理解，也欢迎大家批评指正，多多学习。

谈一谈UNet图像分割