【衡道丨AI】注意力机制在数字病理图像中的应用

类似人类的视觉系统可以自动聚焦于图像的关键区域,计算机前沿研究者们提出了注意力机制的概念,目前广泛应用于基于深度学习的数字图像分析领域。将注意力机制直接用于处理数字病理图像,是不是就可以实现辅助病理医师诊断了呢?事实上,由于数字病理切片的超大分辨率,直接应用会有很大的麻烦,或是会消耗大量的计算资源和时间,难以实现快速地分析;或是为了降低计算丢失细节特征,从而影响最终的预测结果。

针对该问题,衡道病理联合深圳大学、英国诺丁汉大学展开研究,相关科研成果已分别发表在顶级医学影像国际会议ISBI 2019及顶级影像期刊IEEE Transactions on Medical Imaging (2019)。

01

前言

在一张图像中,重要的信息通常都集中在某些局部区域。在人类的视觉系统中,人眼能够自动聚焦于图像中的关键区域。比如说,当我们注视一张有关于企鹅的图时,我们的人眼会自动将大部分的注意力聚集于企鹅身上,而对于其他区域的细节则会有所忽略。

(图片来源:stocksnap.io)

对于计算机来说,如果能使它像人类一样,自动关注图像中的关键信息,并能忽略无关的信息,则能够使计算机更高效地处理图像中的关键信息。前沿的研究者们基于人类视觉的特点,设计了一个称之为注意力的机制(attention)。最常见的一种注意力机制,是使用深度学习网络学习到输入图像每个像素点的权重。所谓权重就是相当于对图像中像素点的重要性作一个区分。对于重要的区域,深度学习网络会给予一个较大的权重值;而对于无关的区域,深度学习网络给定的权重值就会越小。因此,具有注意力机制的深度学习网络相当于扮演了一个过滤器的角色,将输入图像中的重要区域自动地筛选了出来。

这种注意力机制在日常图像的分析中有着很好的效果,但是把它直接用于处理数字病理图像则会有很大的麻烦。数字病理图像的一个特点是切片的分辨率比一般的图像要大很多。这意味着深度学习网络需要对超大规模的像素点逐一进行重要性的标记。因此,在数字病理图像上直接使用注意力机制会消耗大量的计算资源和时间,也难以快速地分析大量数字病理图像用于辅助病理医师的工作。另一种方法是将原图缩小至低分辨率用于网络的训练。然而这样做则势必会使病理图像中的细节特征丢失,从而影响最终的预测结果。因此,基于病理图像的特点,需要设计一种针对性的注意力机制。

02

注意力机制在病理图像中的应用

那么是否能不直接输入整幅图像又不需要缩小图像的分辨率呢?答案是可以的。 我们发表在ISBI 2019上的一篇文章使用了关键区域的坐标作为深度神经网络的输入,来解决乳腺癌病理图像的分类问题(如图1所示)[1]。

图1:通过坐标点获取图像中的关键区域

与之前传统的注意力机制不同的是,在此工作中,输入深度学习网络的不再是一张完整病理图像,取而代之的是一个坐标点。深度学习网络会依据坐标在原图中将该区域进行裁切,得到初步的可疑病变区域的图像片段。这个图像片段的大小会远远小于原始的病理图像,对它的分析所需要的计算资源也将远小于原始图像。在对图像片段提取特征后,作者再将它和相应的坐标信息相融合,得到一个包含图像片段信息和坐标信息的融合特征。这个新的融合特征则被用于一个长短期记忆网络(LSTM,Long Short-Term Memory)。长短期记忆网络的优势在于它是一种循环神经网络,适用于处理连续输入信号的问题。在关键区域检索这个工作中,长短期记忆网络能充分发挥它的优势,它能根据以往输入的融合特征,来判断出当前可疑病变区域的病变程度,以及在下一次循环中,应该需要去寻找的区域坐标。在不断的地学习过程中,长短期记忆网络能逐渐变得智能,从而能从一幅巨大的原始病理图像中找出关键的区域。最后作者在一个乳腺癌病理图像的公开数据集上(BreakHis)进行了测试,实验显示其分类的准确度能达到96%左右,效果优于以往的深度学习网络。

03

选择性的注意力机制

虽然此方法能够自动检索出病理图像中的关键区域,但其仍存在两个缺点:

(1)首先,此方法需要对每一个选择的区域作出判断。然而在训练中,尤其是训练初期,很多选择的图像区域并不包含病理图像的关键信息,从而使得整个训练过程变得冗长。

(2)其次,长短期记忆网络在此方法中需要同时承担分类和关键区域预测两方面的任务,训练过程容易变得不稳定。

为了解决上述的两个问题,我们将此算法进行了改进,提出了一种对网络注意力的筛选机制,并在IEEE Transactions on Medical Imaging期刊上发表了改良版的算法 [2] 。在改良版的算法中,作者构建了两个不同的网络:

(1)第一个称之为选择网络(DeNet);

(2)第二个则是用于分类的软注意力机制网络(SaNet)。其结构如图2所示。

图2:选择网络(DeNet)与分类网络(SaNet)

DeNet的主要作用是作为一个过滤器,来判断当前的选择的区域是否有必要用于分类网络SaNet。倘若DeNet认为当前选择的目标没有关键信息,或者SaNet已经能很好地分辨当前区域,则此区域将不会被用于训练SaNet。在整个训练过程中,SaNet会使用DeNet筛选过的图像片段用于学习,同时SaNet会将现阶段训练的结果反应给DeNet;从而使得DeNet能够依据SaNet的训练状态进一步更新它的选择策略。SaNet和DeNet之间就如何学生和老师之间的一样,学生(SaNet)根据老师(DeNet)给定的教材进行学习,而老师则会根据学生的学习进展,更换学习教材。因此,在训练过程中,两个网络并不是孤立存在,而是互相合作、交换信息

与之前ISBI的文章相比,这篇文章中的方法能减少分类网络的工作量,使得更多有意义的选择区域能被分类网络用于训练,从而使得整个训练过程更稳定和高效。在进一步的实验中,作者也对比了不同网络的准确度和收敛速度。从其结果中可以看出,此方法将分类的准确度进一步提高到了98%,也显示出该方法能在最短的时间内使网络收敛于一个较低的训练损失上。

论文作者:徐博磊博士

(浙江工业大学助理教授)

论文作者:刘净心博士

(衡道病理「医疗大数据与人工智能研发中心」

技术总监)

参考文献:

[1] Xu, Bolei, Jingxin Liu, Xianxu Hou, Bozhi Liu, Jon Garibaldi, Ian O. Ellis, Andy Green, Linlin Shen, and Guoping Qiu. "Look, investigate, and classify: a deep hybrid attention method for breast cancer classification." In 2019 IEEE 16th international symposium on biomedical imaging (ISBI 2019), pp. 914-918. IEEE, 2019.

[2] Xu, Bolei, Jingxin Liu, Xianxu Hou, Bozhi Liu, Jon Garibaldi, Ian O. Ellis, Andy Green, Linlin Shen, and Guoping Qiu. "Attention by Selection: A Deep Selective Attention Approach to Breast Cancer Classification." IEEE Transactions on Medical Imaging (2019).

(0)

相关推荐