脑电信号解码和可视化的深度卷积神经网络

深度卷积网络(deep ConvNets)通过端到端的学习方式,即从原始数据中学习,彻底改变了计算机视觉。人们对使用深度卷积网络进行端到端的EEG分析越来越感兴趣,但如何设计和训练卷积网络进行端到端的脑电图解码,以及如何可视化卷积网络学习到的信息丰富的脑电图特征仍需要更好地理解。在这里,我们研究了一系列的用于从原始EEG信号中解码想象或执行任务的不同架构的深度卷积神经网络。我们的结果表明,机器学习领域的最新进展,包括批量归一化和指数线性单元,以及裁剪训练策略,提高了深度卷积神经网络的解码性能,至少达到了广泛使用的滤波器组公共空间模式(FBCSP)算法的性能(平均解码精度为82.1% FBCSP,84.0%深层卷积网络)。虽然FBCSP被设计为使用频谱功率作为特征,但卷积网络使用的特征不是先验固定的。我们文章中提出的将卷积网络所学特征可视化的新方法证明,卷积网络确实学会了在α、β和高γ频率中使用频谱功率作为特征,并通过揭示不同频段特征对解码决策的因果关系,证明了该方法在空间映射学习特征方面的有效性。因此,我们的研究显示了如何设计和训练卷积网络来解码原始EEG信号中与任务相关的信息,而不需要人为的提取特征,并突出了深度卷积网络与基于EEG的高级可视化技术相结合的潜力。本文发表在Human Brain Mapping杂志。(可添加微信号siyingyxf或18983979082获取原文及补充材料,另思影提供免费文献下载服务,如需要也可添加此微信号入群,原文也会在群里发布)

关键词:脑电图;EEG分析;机器学习;端到端学习;脑-机接口;模型可解释性;脑地形图
思影曾做过多期脑电机器学习,深度学习,脑机接口方面的文章解读,如感兴趣可点击以下链接结合阅读:

基于M/EEG的生物标志物预测MCI和阿尔茨海默病

基于EEG信号的情绪识别

基于机器学习的脑电病理学诊断

高阶统计量在EEG信号处理中的应用

脑电信号处理的机器学习

EEG分类实验block设计的危险与陷阱

Current Biology:视觉想象和视觉感知共享Alpha频带中的神

利用脑电连通性特征和卷积神经网络的情绪分类

脑电研究:通过神经活动和视觉特征的多模态学习

JAMA Psychiatry:使用机器学习的方法探究焦虑和创伤性障

Nature neuroscience:利用encoder-decoder模型实现皮层活

ANNALS of Neurology:中风恢复过程中脑机接口可促进运动

Nature Biotechnology: EEG特征预测重度抑郁症的抗抑郁药反应

BMC Medicine:自闭症谱系障碍静息态EEG信号的定量递归

SCIENCE ROBOTICS:非侵入式神经成像可增强机器控制

Lancet Neurology:一种供四肢瘫痪患者使用硬膜外无线脑机

Lancet经典:植物人意识状态的床边检测

NATURE子刊:出生第一年的纵向EEG power能识别孤独症谱

EEG机器学习:急性脑损伤临床无反应患者脑

STROKE:用于慢性中风患者运动康复的动力外骨骼的健侧脑-机

PNAS:基于脑电在线神经反馈调节唤醒程度可以改善个体

帕金森病认知图谱的EEG机器学习

BRAIN:机器学习:基于EEG的跨中心、跨方案的意识

脑机接口训练可持久地恢复中风病人的上肢运动功能

1. 介绍
机器学习技术可以从大脑活动的脑电图(EEG)记录中提取信息,因此在基于脑电图的几个重要研究和应用领域发挥着关键作用。机器学习技术是临床应用中许多基于EEG的脑机接口(BCI)系统的核心组成部分。例如,这种系统已经允许严重瘫痪的人进行交流,绘制图片,以及远程控制机器人。这种系统也可促进中风康复,并可用于癫痫治疗。此外,用于分析大脑信号(包括EEG)的机器学习技术越来越被认为是探究神经科学的新工具。
然而,尽管许多例子取得了令人印象深刻的进展,但EEG信息提取的几个重要方面仍有相当大的改进空间,包括其准确性、可解释性和在线应用的可行性。因此,人们对将机器学习领域的创新转移到脑电图解码和BCI领域一直很感兴趣。最近,机器学习中创新的一个突出例子就是卷积神经网络的应用,特别是在计算机视觉任务中。因此,人们开始研究卷积神经网络在脑信号解码方面的潜力。然而,脑电信号分析的几个重要的方法问题仍然存在,如下文所述,并在本研究中得到解决。
卷积网络是一种人工神经网络,它可以通过使用卷积作为其关键组件来学习数据中的局部模式(参见“卷积神经网络”一节)。卷积神经网络的卷积层数各不相同,从只有一个卷积层的浅层结构(如成功的语音识别卷积神经网络)到具有多个连续卷积层的深层卷积神经网络,再到具有超过1000层的深层结构(如最近开发的残差网络)。深层转换网络可以首先从原始输入中提取局部的低级特征,然后在更深的层中提取越来越多的全局和高级特征。例如,深度卷积网络可以学习从原始图像中检测日益复杂的视觉特征(例如,边缘、简单形状、完整对象)。在过去的几年里,深度卷积网络在许多应用领域取得了高度成功,例如在计算机视觉和语音识别领域,通常优于以前最先进的方法,例如,深度卷积网络降低了ImageNet图像识别挑战的错误率,其中120万幅图像必须分为1000个不同的类别,在4年内从26%以上降至4%以下。ConvNets还降低了识别语音的错误率,例如,从英语新闻广播;然而,在该领域,将卷积网络与其他机器学习组件相结合的混合模型(特别是递归网络recurrent networks)和无卷积的深度神经网络相结合的混合模型也是有竞争力的。深度卷积神经网络也为人工智能AlphaGo的惊人成功做出了贡献,AlphaGo在围棋比赛中击败了世界冠军。
与其他机器学习模型相比,卷积网络既有优点也有缺点。卷积网络的优势包括它们非常适合端到端学习,即在没有任何先验特征选择的情况下从原始数据中学习,它们可以很好地扩展到大型数据集,并且它们可以利用自然信号中的层次结构。卷积神经网络的缺点包括可能输出高可信度的错误预测,可能需要大量的训练数据,可能比简单的模型需要更长的训练时间,并涉及大量的超参数,如层数或激活函数的类型。众所周知,深度卷积网络也很难解释,鉴于这些优缺点,本研究重点探讨了如何设计和训练不同架构的卷积神经网络,以对人脑记录EEG信号实现端到端学习,以及如何通过适当的可视化技术使其更具可解释性。
脑电图信号具有不同于卷积神经网络最成功的输入信号即图像的特征。与二维静态图像相比,脑电图信号是一个从三维头皮表面电极测量得到的动态时间序列。同时,脑电信号具有较低的信噪比,即与任务无关的信号源对EEG的影响往往强于与任务相关的信号源。这些特性使得对脑电信号的端到端学习比对图像的端到端学习更加困难。因此,来自计算机视觉领域的现有卷积网络体系结构需要针对EEG输入进行调整,并且相对于更传统的特征提取方法,对所得到的解码精度进行严格评估。为此,定义明确的基线是至关重要的,也就是说,与标准EEG解码方法的实现进行比较,该方法的公开结果验证了该方法。有鉴于此,在本研究中,我们讨论了两个关键问题:
1)ConvNet设计选择(例如,整体网络架构的选择或其他设计选择,如所使用的非线性类型)对解码精度有什么影响?
2)ConvNet训练策略(例如,对整个试验训练或对试验进行裁剪再训练)对解码精度有什么影响?
为了解决这些问题,我们创建了三种不同架构的卷积网络,卷积层的数量从2层的浅卷积网络到5层的深卷积网络再到31层的残差网络(ResNet)。此外,我们还结合深层卷积神经网络和浅层卷积神经网络创建了混合卷积神经网络。正如在方法部分详细描述的那样,这些架构的灵感来自于现有的“非卷积神经网络”EEG解码方法(我们嵌入在卷积神经网络中),以及先前发表的图像处理领域的卷积神经网络解决方案(例如,ResNet架构最近赢得了几个图像识别竞赛)。所有的结构都适应了多通道脑电图数据分析的具体要求。为了看这些卷积神经网络能否达到令人满意的的解码精度,我们用它们的解码精度与基于滤波器组公共空间模式(FBCSP)解码的解码精度进行了统计比较,该方法在脑电信号解码中得到了广泛的应用,并在BCI比赛IV数据集2a和2b等多个脑电信号解码比赛中获奖。我们分析了在4个合适的脑电数据集上的离线解码性能(详见“数据集与预处理”一节)。在所有情况下,我们只使用最少的预处理来对卷积网络和FBCSP进行公平的端到端比较。
除了整体网络架构的作用之外,我们还系统地评估了一系列重要的设计选择。我们关注的是基于深层卷积网络的机器学习研究的最新进展。因此,我们通过使用dropout作为一种新的正则化策略,通过批量归一化进行中间归一化或将指数线性单位作为最近提出的激活函数来评估潜在的性能改进。目前还缺乏对脑电信号解码中深层卷积网络设计选择作用的可比分析。
除了卷积神经网络的“结构”的全局体系结构和具体设计选择之外,我们要讨论的另一个重要主题是如何对给定的卷积神经网络进行数据训练。与架构和设计一样,对于训练过程有几种不同的方法选择,如优化算法,或训练数据的采样。在这里,我们主要关注后一个问题,即对训练数据进行采样,与目前使用数百万样本的计算机视觉任务相比,可以用于脑电图解码的数据相对较少。因此,我们对两种采样策略进行了评估,一种是对整个试验进行训练,另一种是对试验的多种裁剪(multiple crops)进行训练,即在试验中移动窗口进行训练。使用多种裁剪是有希望的,因为它增加了训练示例的数量,这是深度卷积神经网络成功的关键。使用多种裁剪已成为卷积神经网络用于图像识别的标准程序,但裁剪训练(cropped training)在脑电图解码中的有效性尚未得到检验。
除了实现良好解码准确性的问题,越来越多的研究致力于解决理解卷积神经网络学习内容的问题(参见Yeager[2016]的综述)。这一研究方向可能与对使用卷积网络感兴趣的神经科学家特别相关,因为他们想了解大脑信号的哪些特征能区分被调查的类别。在这里,在这里,我们提出了两种新的特征可视化方法,我们使用这两种方法来深入了解从神经元数据中学习到的卷积网络。
我们将EEG波段功率特征作为可视化的目标。基于大量运动相关的频谱功率调制文献,我们有明确的期望,哪些波段功率特征应该对不同的类别有区别。开发我们的可视化方法的动机有三个:
1.确认卷积神经网络使用的是真实的大脑信号;
2.了解卷积神经网络的行为,例如,卷积神经网络使用什么脑电图特征来解码信号;
3.有可能在利用卷积神经网络绘制大脑地图方面取得进展。
我们的第一种方法可以用来显示一个特定特征在不同层的卷积神经网络中保留了多少信息;然而,它没有评估该特征是否对卷积神经网络的输出产生因果影响。因此,我们设计了第二种方法来直接研究特征值对卷积神经网络输出的因果影响。使用这两种可视化方法,都可以得到头皮地形图,显示训练后的卷积神经网络的输出中保留了多少不同频带的频带功率信息,或者它们对训练后的卷积神经网络的输出有多少因果影响。
针对上述问题,本研究的主要贡献概括如下:
1.我们首次证明了在被试端到端训练的深度卷积神经网络在脑电任务相关信息解码方面可以达到与FBCSP(基于滤波器组公共空间模式解码)相同的精度范围。
2.我们在EEG解码任务中评估了大量的ConvNet设计选择,并表明最近从深度学习领域开发的方法,如批量归一化和指数线性单元对于达到高解码精度至关重要。
3.我们证明裁剪训练可以提高深度卷积神经网络的译码精度,并描述了一种计算效率高的训练策略来训练有大量裁剪输入的卷积神经网络。
4.我们开发并应用了新颖的可视化技术,这些技术高度表明,深度卷积神经网络能够在与运动解码(alpha、beta和gamma)相关的频带中使用频带功率。
因此,综上所述,本研究中描述的方法和发现是对深度卷积神经网络设计选择的作用进行全面调查的第一步和初步探索。脑电图解码的训练策略和可视化技术,为脑电图解码在临床和神经科学研究中的更广泛应用铺平了道路。
2. 方法
我们首先提供关于脑信号解码的基本定义,作为在剩下的方法部分使用的监督分类问题。其次是滤波器组公共空间模式(FBCSP)和卷积神经网络(ConvNets)的原理,FBCSP是本研究中提到的已建立的基线解码方法(即用来和卷积神经网络对比的方法)。接下来,我们将详细描述为本研究开发的卷积神经网络,包括我们评估的设计选择。随后描述了卷积网络的训练,包括两种训练策略。然后,我们在“可视化”一节中提出了两种新的训练卷积神经网络的可视化方法。数据集、预处理描述和统计评估方法在“数据集和预处理”和“统计”部分。有关软件和硬件的详细信息可以在支持信息2.8和A.8节中找到。
3. 定义与符号
本节更正式地定义了如何将脑信号解码视为一个监督分类问题,也定义了用于描述方法的符号。
4. 滤波器组公共空间模式(FBCSP)
FBCSP(基于滤波器组公共空间模式解码)是一种被广泛应用的振荡EEG数据解码方法,例如运动相关信息的解码,也就是我们在本研究中关注的解码问题。FBCSP是BCI竞赛IV数据集2a表现最好的方法,我们在本研究中也使用了该数据集(短数据集描述见“数据集和预处理”一节)。FBCSP还赢得了其他类似的脑电解码比赛。因此,在本研究中,我们认为FBCSP是评价卷积神经网络性能的一个足够的基准算法。
下面我们解释FBCSP的计算步骤。在解释浅层卷积神经网络(shallow ConvNet for raw EEG signals)架构时,我们将参考这些步骤(参见“原始脑电图信号的浅层卷积神经网络”一节),因为它是受到这些步骤的启发。
FBCSP以一种有监督的方式计算空间滤波器(脑电信号通道的线性组合),以增强脑电信号中包含的分类鉴别频带功率特征。FBCSP提取并使用这些特征

(对应于“Decoder”一节中的特征表示部分)来解码一个试验的标签分为以下几个步骤(在解释浅卷积神经网络时,我们将回顾这些步骤):

5. 卷积神经网络
在下面的部分中,我们首先解释了卷积神经网络的基本思想。然后,我们描述了卷积神经网络在EEG上的架构选择,包括如何在卷积神经网络中表示EEG输入,本研究中使用的三种不同的卷积神经网络架构,以及我们为这些架构评估的几个具体设计选择。最后,我们描述了如何训练卷积神经网络,包括对试验式训练策略和裁剪训练策略的描述。
5.1基本思想
一般来说,卷积神经网络结合了两种对自然信号(如图像和音频信号)学习很有用的想法。这些信号通常具有固有的层次结构(例如,图像通常由边组成,这些边共同形成简单的形状,然后又形成更大、更复杂的形状,等等)。卷积网络可以学习局部非线性特征(通过卷积和非线性),并将高层特征表示为低层特征的组合(通过多层处理)。此外,许多卷积神经网络使用池化层,创建一个粗糙的中间特征表示,可以使卷积神经网络具有更多的平移不变性。
6. 卷积网络架构和设计选择
6.1输入表示
将卷积神经网络应用于脑电图解码的第一个重要决定是如何表示输入

一种可能的方法是将脑电图表示为脑地形图上有组织的时间序列,即整个(扁平的)头皮表面的电压分布(这已被用于获得功率谱作为输入的ConvNets)。

然而,EEG信号被假定为近似由大脑中多个双极电流源引起的空间整体电压模式的线性叠加。因此,在许多成功的脑电图解码示例中,通常将使用多个空间滤波器应用于整套相关电极来分解这些全局模式作为一个基本步骤。
在这种观点下,所有相关的EEG调制本质上都是全局的,由于无创脑电图的物理起源,因此在空间上不存在明显的局部和全局EEG调制的层次组成。相比之下,有大量的证据表明EEG是跨多个时间尺度组织的,如嵌套振荡在时间上涉及局部和全局调制。基于此,我们设计了一种方式,使卷积神经网络能够在入口层学习空间上的全局解混滤波器,并在更深的架构中学习局部和全局调制的时间层次。为此,我们将输入表示为2维的,以时间步数(采样点)为宽度,以电极数(通道数)为高度。与EEG -as-a -image方法相比,该方法也显著降低了输入维数。
6.2原始EEG信号的深度卷积网络
为了解决脑电图解码的任务,我们设计了一个深度卷积神经网络架构,其灵感来自于计算机视觉领域的成功架构。该体系结构的要求如下:我们希望模型能够提取广泛的特征,而不局限于特定的特征类型。我们感兴趣的是这样一个通用的体系结构的原因有两个:(1)我们的目标是揭示这种仅用少量专家知识设计的通用卷积网络是否能够达到竞争精度,(2)以支持标准的“卷积神经网络”可以作为脑信号解码任务的通用工具的想法。此外,保持架构的通用性也增加了用于大脑解码的卷积神经网络直接受益于深度学习未来方法的发展的机会。
我们的深度卷积网络有四个卷积最大池化块,第一个块用于处理EEG输入(见下文),然后是三个标准的卷积最大池化块和一个密集的softmax分类层(图1)。
为了更好地处理大量输入通道(每一个电极代表一个通道),第一个卷积块被分成两层。在第一层中,每个滤波器随时间执行卷积,在第二层中,每个滤波器使用前一时间卷积滤波器的所有可能的电极对的权值执行空间滤波。注意,由于两层之间没有激活函数,原则上可以将它们合并为一层。然而,使用两层强制将线性变换分离为时间卷积和空间滤波器的组合,从而隐式地规范了整体卷积。在我们的实验中,这种分裂的卷积是通过单步卷积来评估的(参见“deep and shallow ConvNet的设计选择”一节)。
我们使用指数线性单位(exponential linear units,ELUs:

)作为激活函数。(我们也评估了校正线性单元(ReLUs),作为一个替代方案,参见“深和浅ConvNet的设计选择”一节)。

6.3 原始EEG信号的浅层卷积网络
我们还设计了一个更浅的架构,称为浅卷积网络,专门为解码频带功率特性量身定制,灵感来自FBCSP的pipeline(图2)。由浅卷积神经网络执行的转换类似于FBCSP的转换(请参阅“Filter Bank Common Spatial Patterns (FBCSP)”一节)。具体来说,浅卷积网络的前两层执行时间卷积和空间滤波,就像在深卷积网络中一样。这些步骤类似于FBCSP中的带通和CSP空间滤波器步骤。与深层卷积网络相比,浅层卷积网络的时间卷积核更大(25 vs 10),允许在该层进行更大范围的转换(浅层卷积网络的更小卷积核大小将导致在训练集的初步实验中更低的精度)。对浅卷积网络进行时间卷积和空间滤波后,接着是非线性平方、平均池化层和对数激活函数;这些步骤一起类似于FBCSP中的试验对数方差计算(我们注意到这些步骤没有在深度卷积网络中使用)。与FBCSP不同的是,浅卷积网络将所有的计算步骤都嵌入到一个网络中,因此所有步骤都可以联合优化(见“卷积网络训练”一节)。此外,由于在一次试验中有多个池化区域,浅卷积神经网络可以学习试验中频带功率变化的时间结构,这在之前的工作中被证明有助于分类。

图2 浅层ConvNet结构。

6.4 深层和浅层ConvNet的设计选择
对于上面描述的两种架构,我们评估了几种设计选择。我们评估了体系结构的选择,我们期望这些选择对解码精度有潜在的巨大影响,并且/或者我们希望能够通过这些选择来洞察卷积网络的行为。因此,对于深度卷积神经网络,我们比较了表I中列出的设计方面。
下面,我们将提供这些方面的其他细节。Batch normalization(批量标准化)将网络的中间输出标准化为零均值和单位方差的一批训练样本。这意在通过在训练过程中保持各层的输入接近正态分布,以利于优化。我们将原文推荐的批归一化方法应用于非线性前的卷积层输出。Dropout在每次训练更新中随机为一层设置一些输入为零。它是为了防止不同单元的共同适应,可以看作是类似于训练一个网络集合。我们以0.5的概率丢弃第一层之后所有卷积层的输入。最后,我们新的损失函数旨在进一步规范我们的裁剪训练(请参见“裁剪训练”一节以获得解释)。
我们评估了浅层卷积网络的相同设计方面,除了以下不同:
1. 激活函数和池化模式的方法选择为“非线性平方”和“平均池化”,动机在“原始脑电图信号的浅卷积网络”一节中给出。
2. 我们没有将分解的时间卷积纳入比较中,因为浅层卷积网络较长的卷积核长度使得这些卷积与其他成功的卷积网络不太相似。
3. 我们将池化层后的对数非线性与平方根非线性进行了对比,以检验FBCSP激发的对数激活是否优于传统的L2-pooling。
6.5 混合卷积网络
除了深卷积神经网络和浅卷积神经网络的个人设计选择之外,一个很自然的问题是这两个卷积神经网络是否可以组合成一个单独的卷积神经网络。这种混合的卷积神经网络可以从浅层卷积神经网络更具体的特征提取和深层卷积神经网络更通用的特征提取中获益。因此,我们也创建了一个混合卷积网络融合后的最后一层。具体来说,我们将深层和浅层卷积网络的四过滤的softmax分类层分别替换为60和40层过滤的ELU层。得到的100个特征图被连接起来,用作新的softmax分类层的输入。我们重新训练了整个混合卷积神经网络,没有使用任何预先训练的深度或浅层卷积神经网络参数。
6.6 原始EEG信号的残差卷积神经网络
除了浅层和深层的卷积神经网络,我们还评估了另一种网络架构:残差网络(ResNets),这是一种最近在计算机视觉领域赢得多项基准测试的卷积神经网络架构。ResNets通常有非常多的层,我们想研究是否具有更多层的相似网络也会导致良好的EEG解码性能。ResNets将一个卷积层的输入添加到同一层的输出中,其效果是,卷积层只需学习输出一个改变前一层输出的残差(因此得名残差网络)。与传统的卷积网络相比,这使得Resnet可以通过更大的层数成功训练。我们的残差块与原论文中描述的相同(图3)。
图3 残差块。
我们的ResNet在整个网络中使用了指数线性单元激活函数(与深卷积网络相同),并从时间和空间的分裂卷积(与深卷积网络和浅卷积网络相同)开始,然后是14个残差块、均值池化和最终的softmax分类层(详见Supporting Information,A.3节)。
7. 卷积网络训练
在这一节中,我们首先给出了卷积神经网络是如何训练的一般定义。其次,我们描述了从脑电数据中提取训练输入和训练标签的两种方法,从而得到一种试验式和裁剪式的训练策略。
对于训练卷积网络来说,参数通常是通过使用通过反向传播计算的分析梯度的小批量随机梯度下降来优化的(参见LeCun等人[2015]对卷积网络的解释和本文中“优化和提前停止”一节,了解本研究中使用的优化器的详细信息)。
该卷积网络的训练描述与我们在“定义和符号”一节中的通用EEG解码定义相关,如下所示。卷积网络计算的函数可视为由特征提取函数和分类器函数组成:特征提取函数

,其中

是除倒数第二层外,所有层计算出来的参数;分类函数

,其中

是使用特征提取函数的输出作为输入,由最终的分类层计算。在这个观点中,卷积神经网络的一个关键优势变得很明显:通过对两个功能的联合优化,卷积神经网络可以同时学习两种功能,即任务的描述性特征表示和判别分类器。这对于大数据集尤其有用,在大数据集中,卷积神经网络更有可能学会提取有用的特征。对于EEG数据,学习特征可能特别有价值,因为可能存在未知的鉴别特征,或者至少是传统的特征提取方法(如FBCSP)没有使用过的特征。

7.2 输入与标签
在本研究中,我们评估了输入样本和目标标签的两种方法,卷积神经网络是在这两种方法上进行训练的。首先,使用整个试验作为输入,每个试验标签作为目标的试验策略。第二,一种使用裁剪的裁剪训练策略,即将试验内的滑动时间窗口内的采样点作为输入,将每个裁剪的标签作为目标(其中裁剪的标签与从该裁剪中提取出来的试验的标签相同)。
 
7.3 试验式训练
标准的试验式训练策略使用整个试验期间,因此类似于FBCSP的训练策略。对于每个试验,将试验信号作为输入,相应的试验标记作为目标,对卷积神经网络进行训练。对于FBCSP和ConvNets,我们评估了在试验开始提示前500毫秒,直接在试验开始时,或者在试验开始提示后500毫秒开始的试验期;试验开始前500毫秒,ConvNets获得最佳准确度,试验开始后500毫秒,FBCSP获得最佳准确度。因此,在本研究中使用这些设置(ConvNets在500ms之前,FBCSP在500ms之后)。这导致每个受试者在BCI竞赛IV数据集2a上有288个训练示例,在他们各自的训练测试分离后,HighGamma数据集上每个受试者大约有880个训练示例。
7.4 裁剪式训练
裁剪训练策略使用裁剪,即在试验中滑动输入窗口,这比试验式训练策略为网络带来更多的训练实例。我们从用于图像目标识别的卷积神经网络中采用了该策略,其中使用输入图像的多个裁剪是提高解码精度的标准程序(参见He等人[2015]和Szegedy等人[2015])。
在我们的研究中,我们使用约2s的裁剪作为输入。我们采用一种裁剪方法,通过为每个样本创建一种裁剪(所谓的样本,我们指的是脑电图试验时间序列中的一个时间步长),
这种大胆裁剪的目的是迫使卷积网络使用试验中所有裁剪都存在的特征,因为在整个试验中,卷积网络不能再使用裁剪之间的差异和特征的全局时序结构。我们从试验开始前0.5s开始收集裁剪(第一次裁剪从试验开始前0.5 s到试验开始后1.5 s),最后一次裁剪在试验开始后4s结束(与试验结束重合,因此最后一次裁剪在试验开始前2 s开始并持续到试验结束)。总的来说,这产生了了625个裁剪,因此625个标签预测每个试验。这625个预测的平均值被用作试验阶段的最终预测。在训练期间,我们为每一个预测计算一次损失。因此,裁剪训练将训练集的大小增加了625倍,尽管训练实例高度相关。由于我们的裁剪段比试验小,卷积网络的输入大小也更小(从大约1000个输入样本到250 Hz采样率的大约500个输入样本),而所有其他超参数保持不变。
为了减少增加的训练集的计算负荷,我们将一组相邻的裁剪放一起解码,并重复用中间卷积输出。这个想法已经以同样的方式被用于加速对图像中的每个像素进行预测的卷积网络。简而言之,这种方法的工作原理是为卷积网络提供一个包含多个裁剪的输入,并在一次向前传递中计算所有裁剪的预测(图4给出了解释)。这种裁剪训练方法产生了一个新的超参数:即同时处理的裁剪段数量。裁剪段数量越大,加速越大,但代价是增加内存消耗。在训练过程中同时处理的大量裁剪段也意味着在小批量随机梯度下降过程中,在同一试验中计算的大量裁剪上的梯度也会带来参数更新,这就意味着训练不稳定的风险。然而,当扩大处理的裁剪数量时,我们没有观察到大量的精度降低,在最后的实现中,我们一次处理了大约500个裁剪,这相当于向卷积网络传递了大约1000个样本的输入,是500个单一裁剪样本的两倍。注意,当使用有效的卷积(即没有填充)时,这种方法只会产生与naive方法完全相同的预测。对于填充卷积(我们在“用于原始脑电图信号的残差卷积网络”一节中描述的残差网络中使用),该方法不再产生相同的预测,因此不能再用于加速单个样本的预测。然而,如果人们只对试验的平均预测感兴趣,就像我们在这项研究中一样,它仍然可以被使用。
为了进一步规范化经过裁剪训练的卷积神经网络,我们设计了一个新的目标函数,该函数可以惩罚相邻作物预测之间的差异。在这个损失函数中,我们将两个相邻预测的交叉熵添加到标签的负对数似然损失中。所以现在的损失不仅当前裁剪段预测的影响,同时受下一个裁剪段预测的影响:

这是为了使卷积神经网络专注于对几种相邻输入裁剪段稳定的特性。

图4 用于裁剪训练的多裁剪预测。
7.5架构差异
卷积网络的体系结构对于试验式训练和裁剪式训练是相同的,除了最后的分类层。对于较大的时间输入长度(深度卷积网络的最终时间权重长度为9比2,浅层卷积网络的最终时间权重长度为69比30 ),试验式训练的时间维度权重大于裁剪式训练。
7.6 优化与早期停止
作为优化方法,我们使用Adam和一种特定的早期停止方法,因为在训练集的前期实验中,这种方法始终能获得较好的精度。关于Adam和我们的早期停止策略的详细信息,请参见支持信息,A.4节。
8. 可视化
8.1 关联输入特征和单元输出:网络关联图
如引言中所述,目前人们对理解卷积神经网络如何学习解决不同任务非常感兴趣。为此,可视化卷积神经网络功能方面的方法是有帮助的,这种方法的发展是一个活跃的研究领域。在这里,我们想要描绘出卷积神经网络使用了哪些脑信号特征,以及它们在哪些层中提取了这些特征。对找出可能使用的特征最明显的限制是,卷积神经网络各层中的单元(神经元)只能从它们“看到”的样本中提取特征,即从它们所谓的接受域中提取特征(图5)。进一步缩小可能使用的特征的方法是使用领域特定的先验知识,并研究已知的类别鉴别特征是否被卷积神经网络学习。然后,可以为这些分类判别特征计算所有单个单位的所有接受域的特征值,并测量该特征对单位输出的影响程度,例如,通过计算特征值和单位输出之间的相关性。
基于这种精神,我们提出输入-特征单位-输出相关图作为一种方法来可视化网络如何学习频谱幅度特征。众所周知,振幅,例如alpha, beta和gamma波段的振幅,为运动任务提供了分类鉴别信息。因此,我们使用几个频带的平均包络值作为特征值。我们将一个单元的接收域内的这些值与相应的单元输出相关联,作为其总的频谱振幅的测量,从而了解卷积神经网络使用了多少这些振幅特征。与未经训练的网络相比,正相关或负相关意味着卷积神经网络学会了创建比训练前包含更多关于这些特征信息的表征。
图5 ConvNet接收域图示。显示了每层一个单元的输出、输入和接收域。颜色表示不同的单位。
这种方法的一个局限是它没有区分相关性和因果关系(比如:包络的变化是否导致了单位输出的变化,或者是否是与单位输出相关的另一个特征导致了这种变化)。因此,我们提出了第二种可视化方法,在这种方法中,我们扰动现有输入的振幅,并观察卷积网络预测的变化。这是对第一种可视化的补充,我们将这种方法称为输入扰动网络-预测相关图。通过使用数据的人工扰动,他们可以洞察特定特征幅度的变化是否会导致网络改变其输出。下面将详细描述两种NCM方法的计算。
8.2 输入-特征单元-输出相关图
输入-特征单位-输出相关图显示了卷积网络的单位输出与这些单元接受域中所有样本的功率之间的频率分辨相关(图6)。
为此,我们执行了以下步骤:
1. 对于每个感兴趣的频带,将信号带通滤波到该频带并计算包络线。
2. 对于每个感兴趣的频带,计算给定层的每个接受域的均方包络。我们通过计算平方包络的移动窗口平均值来做到这一点,移动窗口大小与接受域大小相同(这是输入特征,然后我们评估它对单位输出的影响程度)。
3. 计算给定层对原始信号的单元输出。
4. 计算了所有频带的均方包络值与每个卷积滤波器的单元输出之间的线性相关性。这些相关性应该反映出一个滤波器是否可以计算其接受域内所有样本的均方包络的近似值。

图6 输入-特征单位-输出网络相关图的计算概述。

(a)输入-特征-单位-输出相关图的特征输入和单位输出。

(b)输入-特征单位-输出相关性和相应的头皮上的alpha波段。

当我们在连接所有试验的所有样本后计算相关性时,这些相关性反映了试验内和试验间的影响。然而,提出的方法可以直接扩展到解开这两个来源。我们计算了从0到119赫兹的滤波器组的相关性。图7显示了单个电极和单个受试者的示例结果。为了计算一个频带的单个头皮图(scalp plot),我们计算了该频带每个卷积滤波器和每个电极在所有单元上的绝对相关的平均值。为了将由网络训练引起的影响与由结构引起的影响分开,我们计算了训练模型和未训练模型的头皮图。受试者的头皮图是训练模型的头皮图减去未训练模型的头皮图(图6b )。群体头皮图是这些差异头皮图在所有被试上的均值。
图7 在一个电极位置(FCC4h)上单个受试者的平均平方包络特征和单位输出之间的相关性。
为了将结果映射与仅由类特征相关性产生的头皮映射进行比较,我们还计算了均方包络值与独热编码类(one-hot-encoded classes)之间的线性相关性,方法与前面相同。首先,对于每个试验、每个传感器和每个频带,我们像以前一样构造一个移动窗口平方包络值的向量(移动窗口现在是卷积神经网络最后一层接受域的大小)。其次,对于每个试验和每个类,我们构造一个向量,如果试验是给定类的,则其值为1;如果试验是另一个类的,则其值为0。如果时间点属于给定的类,则连接的向量将得到一个时间序列,该时间序列的值为1,如果不属于给定的类,则该时间序列的值为0。然后,我们将移动窗口平方包络时间序列向量与类时间序列向量相关联,得到每类、传感器和频带组合一个相关值。和其他计算一样,我们减去了未经训练的深度卷积神经网络的预测结果的相关性。
另一个问题是相关性是否可能是单元输出编码最终类别标签的结果。除了我们分析的特征之外,这种相关性也可能是由使用其他区别性特征产生的。为了研究这个问题,我们将每个层的单元输出与类标签相关联。这里,我们按照上一段中描述的相同方式进行,但是将单元输出直接与类标签相关联。然后我们以两种方式计算每层的单个绝对相关系数:首先,我们计算所有类别和所有过滤器的平均绝对相关系数。这些相关性应该显示单元输出对过滤器的类别标签的平均编码强度。其次,我们计算每一类滤波器的最大绝对相关系数,然后计算这四类最大值的平均值。这些相关性应该显示出单元输出对最“类信息”过滤器的类标签编码的强度。最后,对于这两个版本和其他可视化,我们还计算了经过训练的模型和未经过训练的模型之间这些相关性的差异。总之,这种方法允许显示单元输出类关联是如何通过卷积网络从一层到另一层产生的。
8.3 输入扰动网络-预测相关图
为了研究功率变化对深层卷积神经网络(ConvNet)的因果影响,我们通过扰动原始试验振幅,将卷积神经网络预测的变化与振幅的变化相关联(见图8)。具体地说,我们通过傅里叶变换将所有训练试验变换到频域。然后我们通过添加均值为0和方差为1的高斯噪声来随机扰动振幅。各相保持不受干扰。扰动之后,我们通过傅里叶反变换重新变换到时域。我们计算了这些试验的深卷积神经网络在扰动之前和之后的预测(这里的预测指的是在softmax激活之前直接的卷积神经网络的输出)。我们对上述高斯分布采样的400个扰动重复了这一步骤,然后将输入振幅的变化(即我们添加的扰动/噪声)与卷积神经网络预测的变化相关联。为了确保我们的扰动影响反映了卷积神经网络对真实数据的行为,我们还检查了扰动输入不会导致卷积神经网络对试验进行错误分类(即使是很小的扰动也很容易发生这种情况)。为此,我们计算了扰动试验的精度。对于所有受试者的训练集的所有扰动,准确度保持在未扰动数据的99.5%以上。
图8 输入-扰动网络-预测相关图的计算概述。
(a)谱振幅扰动和由此产生的分类差异。
(b)输入-扰动网络-预测相关和相应的网络相关头皮上的alpha波段。
9. 数据集与预处理
我们首先评估了两个脑电图数据集的解码精度,一个是较小的公共数据集(BCI competition IV dataset 2a)与之前发表的精度进行了比较,一个在我们实验室获得的较大的新数据集用于评估解码方法与更多的训练试验(每个受试者880次试验,相比之下,公共组为288次)。我们称此数据集为高gamma数据集(High Gamma Dataset,HGD),因为它特别适合于从更高的频率提取信息;参见支持信息,A.6节。为了研究我们的主要结果是否也适用于其他数据集,我们在另外两个数据集上比较了卷积网络和FBCSP的解码精度:BCI竞赛IV 2b数据集是一个3电极的二分类脑电运动想象数据集,以及混合图像数据集(MID),一个64电极的四分类数据集,包含两个运动和两个非运动想象类别(右手运动、脚运动、心理旋转和单词生成)。关于数据集的详细信息,请参见支持信息,章节A.6。
9.1 不同频带的脑电图预处理与评估
我们只对数据集进行了最小程度的预处理,以允许卷积神经网络自己学习任何进一步的转换。除了全带宽(

Hz)数据集之外,我们还分析了超过4Hz(我们称之为

Hz数据集)的数据高通滤波,以减少人工干扰,这需要在脑机接口的脑信号解码中加以考虑。用三阶巴特沃斯滤波器进行滤波。

Hz数据集也进行了滤波,这样可以减少网络或FBCSP使用眼动伪影来解码行为类别的可能性,因为眼动在这种低频率下产生的能量最多。我们对BCI竞赛数据集进行了分析,根据数据集发布者的要求,我们特别注意避免解码与眼睛相关的信号,高通滤波器是去除眼睛伪影的建议方法之一;的确,这是竞赛获胜者使用的方法。有关其他预处理步骤的详细信息,请参见支持信息A.7节。

10. 统计
我们使用Wilcoxon符号秩检验来检验两种解码方法的准确性的平均差异的统计学显著性。我们通过使用所有绑定数据点的平均秩和和零差值来处理绑定,方法是将这些零差值的秩和的一半分配给正秩和,另一半分配给负秩和。对于由链接(tie)或0引起的非整数测试统计值,我们将测试统计量舍入到下一个更大的整数,从而得到更保守的估计。
为了校正多项测试,我们还使用本杰明-霍赫伯格程序在

对所有涉及卷积网络准确度的比较进行了错误发现率校正。

11. 结果
11.1 FBCSP基线验证
结果1:FBCSP基线与文献报道的结果相同
作为评估卷积网络解码的第一步,我们验证了我们的FBCSP实现,因为这是我们比较卷积网络结果的基线。为了验证我们的FBCSP实现,我们将其准确性与BCI竞赛IV数据集2a中发表的文献进行了比较。使用相同的0.5-2.5 s(相对于试验开始时间)时间窗,我们达到了67.6%的准确性,与他们的(67.0%,P=0.73, Wilcoxon符号秩检验)没有统计学上的显著差异。但是,请注意,我们在以后的卷积网络实验中使用了完整的试验窗口,即从0.5秒到4秒。这产生了较好的准确性67.8%,在0.5-2.5 s窗口上与原始结果仍然没有统计学上的显著差异(P=0.73)。对于以后的所有比较,我们对所有数据集使用0.5-4秒的时间窗口。
11.2 架构和设计选择
结果2:卷积网络达到FBCSP精度
通过适当的设计选择(见结果5),无论是深的还是浅的卷积神经网络都达到了与基于FBCSP的解码相似的精度,在某些情况下,卷积神经网络具有很小但统计上显著的优势。在所有受试者的平均值上,

Hz浅层卷积网络和

Hz深层卷积网络的准确度与FBCSP没有统计学差异(图9和表2 )。

Hz的深卷积网络和

的浅卷积网络的稍高(分别提高1.9 %和3.3 % ),差异也有统计学意义( P < 0.05,Wilcoxon符号秩检验)。注意,本节中的所有结果都是通过裁剪训练获得的,关于裁剪训练和试验训练的比较,请参阅“训练策略”一节。需要注意的是,在所有涉及卷积网络准确性的测试中,当错误发现率校正为时,本研究中所有低于0.01的P值仍然具有显著性。

图9 FBCSP vs. ConvNet解码准确率
结果3:所有解码方法的混淆矩阵是相似的

的高伽马数据集上,FBCSP和两个ConvNets的混淆矩阵非常相似(图10)。大多数错误是由于区分了手(L)/手(R)和脚/休息,见表三。7项混淆矩阵在深层和浅层卷积神经网络(ConvNet)中均有统计学差异(P<0.05, Wilcoxon signnedrink test),其中深层卷积神经网络(deep ConvNet)表现更好。deep ConvNet和FBCSP之间只有2个差异有统计学意义(P<0.05),浅层ConvNet和FBCSP之间没有差异。BCI竞赛IV数据集2a的混淆矩阵显示出更大的可变性,因此具有更不一致的模式,这可能是因为试验的数量更少。

图10 FBCSP和ConvNet解码的混淆矩阵。
结果4:混合卷积神经网络的表现略差,但统计学上不显著,比深度卷积神经网络差

混合卷积神经网络的表现与深度卷积神经网络相似,但略差,即在

Hz数据集上为83.8% vs 84.0% (P>0.5, Wilcoxon标记秩检验),在

Hz数据集上为82.1% vs 83.1% (P>0.9)。在这两种情况下,混合卷积网络的准确率与FBCSP也没有统计学上的差异(83.8% vs 82.1%, P>0.4在

Hz上为,82.1% vs 81.9%, P>0.7在

Hz)。

结果5:卷积神经网络的设计选择在很大程度上影响了解码的准确性
下面,报告了来自两个数据集的所有受试者的所有设计选择的结果。关于所研究的不同设计选择的概述,以及这些选择背后的动机,请参阅“深层和浅层卷积网络的设计选择”一节。
批量标准化(Batch normalization )和dropout显著提高了准确性。当同时忽略两者时,这一点尤其明显(图11a)。批量标准化化对浅层卷积神经网络的精度有较大提高,而dropout对深层卷积神经网络的精度有较大提高。对于这两个网络和两个频段,唯一具有统计学意义的准确性差异是在

Hz数据上去除deep ConvNet的dropout后,或者去除两个网络和频率范围上的batch normalization和dropout后,准确率下降(P<0.05, Wilcoxon符号秩检验)。使用捆绑损失对准确性没有太大影响,从未产生统计学差异(P>0.05)。对于浅层的卷积网络,将第一层划分为两个卷积,其中

hz数据的精度提高幅度最大,也是唯一具有统计学意义的差异(P<0.01)。

对于深层卷积神经网络,由于各层均为非线性,采用ReLU代替ELU会导致性能下降(P<0.01,如图11b所示)。用的卷积核代替的卷积核对性能的影响没有显著的统计学意义(P>0.4)。
图11 ConvNet设计的选项对解码准确率的影响。
(a)设计选择对两种卷积网络的影响。显示了从架构中去除一个方面对译码精度的影响。
(b)不同类型的非线性、池化模式和过滤器尺寸的影响。分别给出了深层卷积神经网络和浅层卷积神经网络的结果。
结果6:最近深度学习的进步大大提高了准确性
图12清楚地表明,只有结合最近的深度学习方法(即批归一化、dropout和ELUs的结合)的最新进展,我们的深度卷积才能够与FBCSP竞争。在没有这些新进展的情况下,深度卷积网络对

Hz和

Hz数据的准确率均显著低于FBCSP ( P < 0.001,Wilcoxon符号秩检验)。

图12 最近的进步对整体解码准确度的影响。没有批量归一化,dropout 和elu的准确性。
结果7:残差网络比深度卷积网络性能差
残差网络的精度始终低于深卷积神经网络,如表4所示。在合并数据集上,所有的精度都较低,且在两个频率范围内的差异具有统计学意义。
11.3 训练策略
结果8:裁剪训练策略在高频段改进深度卷积神经网络
裁剪训练在

Hz数据上显著提高了深度卷积神经网络的准确性(P<1e25, Wilcoxon符号秩检验;图13)。在所有其他设置(

Hz数据,浅卷积网络)中,准确性差异没有统计学意义(P > 0.1)。

结果9:训练卷积神经网络花费的时间远远长于FBCSP
FBCSP的训练速度明显快于采用剪裁训练的卷积网络,在BCI比赛IV数据集2a上为27-45倍,在高伽马数据集2a上为5-9倍(表V)。训练时间是端到端,即包括数据的加载和预处理。这些时间只是为了粗略估计训练时间,因为卷积神经网络训练和FBCSP训练在计算环境上存在差异。最重要的是,FBCSP是在CPU上训练的,而网络是在GPU上训练的(Supp. A.8)。FBCSP在高伽马数据集上较长的相对训练时间可以用我们在高伽马数据集上使用的更多频带来解释。与FBCSP相比,训练后的卷积神经网络的在线应用方面并没有速度劣势;训练出的卷积神经网络的快速预测速度使其非常适合于实时BCI解码应用。
11.4 额外的数据集
结果10:在其他数据集上,卷积网络达到与FBCSP相同的精度范围
在另外两个数据集上,即BCI竞赛数据集2b和混合图像数据集(MID),卷积网络再次达到了与FBCSP非常相似的精度范围。在BCI竞争IV数据集2b中,深度卷积神经网络(deep ConvNets)的平均kappa值为0.598,与FBCSP竞争结果(0.599)基本相同,而浅层卷积神经网络(shallow ConvNets)的kappa值稍好,为0.629。两种卷积网络结果与FBCSP (P>0.3)无统计学差异。对于混合图像数据集,浅层卷积神经网络的平均精度为67.7%,略低于FBCSP的71.2%,而深层卷积神经网络的平均精度为72.2%,略优于FBCSP。
 
11.5 可视化
结果11:频带功率拓扑显示了运动任务典型的事件相关去同步/同步
在使用卷积网络可视化之前,我们在alpha、beta和gamma频段检查了与不同运动类别相关的频谱振幅变化,找到了预期的整体头皮地形(图14)。例如,对于alpha (7 - 13hz)频段,相对于手的类别,左、右中心周围区域的等级相关功率下降(等级包络相关不明显),在手运动侧的对侧更强,也就是说,具有显著功率降低的区域位于主要感觉运动手表征区域周围。对于脚类,在顶点附近有一个功率下降,也就是说,大约在主要运动脚区域的上方。正如预期的那样,在gamma波段(71–91Hz),可以看到具有相似地形的相反变化(功率增加)。
图14 所有分类的alpha,beta和gamma波段的包络类相关性。
结果12:输入-特征单元-输出相关图显示了通过卷积神经网络层的学习进程
我们使用输入-特征单位-输出相关映射技术来研究神经网络如何学习脑电功率与行为类别之间的相关性。图15显示了深度卷积网络的所有四个卷积池化块的输入-特征单位-输出相关图,用于高伽马(High Gamma)数据集的受试者组。作为比较,该图还包含了功率和类本身之间的相关性,如“输入-特征单位-输出相关性映射”一节所述。绝对相关系数的差异表明,哪个区域与训练后的卷积神经网络的单元输出的相关性高于与未训练的卷积神经网络的单位输出的相关性;这些关联自然是无方向性的。总体而言,随着层深度的增加,输入-特征单位-输出相关图更接近幂级相关图。随着层的深度的增加,单元输出与类别标签的相关性也在增加(图16)。
图15 深层卷积神经网络中所有卷积神经网络块的功率输入-特征单元-输出网络相关图。相关差值分别表示训练模型与未训练模型对每个电极的相关系数的差值,可视化为一个头皮地形图。

图16 单元输出和类别标签之间的绝对相关性。每个点代表一层深卷积神经网络的绝对相关系数。

结果13:输入扰动网络预测相关图显示了空间局部波段功率特征对卷积网络预测的因果影响
我们展示了从输入扰动网络-预测相关性中提取的三个可视化图像,前两个显示了因果效应的频率剖面图,第三个显示了它们的地形。
因此,首先,我们分别计算每个类别的电极之间的平均值,以显示类别和频带之间的相关性。例如,我们看到了其他类的可信结果,alpha和beta波段正相关,gamma波段负相关(图17)。
然后,通过取所有类和电极的绝对值平均值,计算出一般频率剖面。这在alpha, beta和gamma波段显示出明显的峰值(图18)。相同频率范围的CSP二进制译码精度也有相似的峰值。
第三,不同频带的输入扰动对网络预测的头皮图,如图19所示,显示了运动任务在alpha、beta和高伽玛频带的预期空间分布(这是首次对这种非侵入性EEG解码进行可视化)。这些头皮图直接反映了“卷积神经网络”的行为,人们在对它们的数据进行推断时需要小心谨慎。例如,alpha波段中手部(R)类头皮右侧的正相关仅意味着当这些电极上的振幅独立于其他频段和电极而增加时,卷积神经网络的预测就会增加。这并不意味着数据中右手类的振幅有增加。相反,这种相关性可以通过卷积网络减少了两个位置之间的共同噪声来解释。然而,在无创EEG中,这些地图首次清楚地揭示了运动皮层伽马带活动对解码左右手和脚运动的因果贡献。有趣的是,这些图谱显示出高度聚焦的模式,特别是在伽马频率范围内的手部运动(图16),而传统的与任务相关的频谱分析则显示出更为弥散的模式,如图14所示。
总而言之,我们的可视化方法被证明对卷积网络学习到的特征的空间分布进行映射是有用的,可以对不同的运动和不同的生理重要频段进行单试解码。

图17 每个类别的输入-扰动网络预测相关的所有频率的深卷积神经网络。

图18 深层卷积神经网络的绝对输入-扰动网络预测相关频率剖面图。

图19 深层卷积神经网络的输入-扰动网络-预测相关图。类别预测和振幅变化的相关性。

12. 讨论
本研究系统地评估了不同架构和不同设计选择的卷积网络,并采用了经过验证的基线方法,即FBCSP进行了对比。本研究表明,卷积神经网络能够对脑电图进行精确的任务解码,最新的深度学习技术对于提高卷积神经网络的性能至关重要,而裁剪的卷积神经网络训练策略可以进一步提高解码性能。因此,卷积神经网络可以通过最小的预处理实现成功的EEG端到端学习。本研究也表明,新的卷积神经网络可视化方法为脑电信息特征的脑制图提供了新的可能性。
12.1 架构和设计选择
卷积网络VS FBCSP
我们的结果表明,深度和浅层卷积神经网络,在适当的设计选择下,至少能够达到FBCSP从脑电图中解码运动的准确性(见结果2)。在我们对组合数据集的主要比较中(表II),深、浅两种卷积神经网络的精度都非常接近,略高于FBCSP的精度。由于滤波器组的共同空间模式是脑电记录的运动解码事实上的标准,这强烈暗示了卷积神经网络也是一种合适的运动解码方法。虽然我们已经证明了深度卷积网络与标准的FBCSP具有竞争优势,但是FBCSP存在很多变种。例如,CSP的许多正规化变体可以在FBCSP中使用,与这些变体的比较可以进一步显示更通用的卷积网络与更特定领域的FBCSP之间的确切权衡。
深度学习的最新进展所扮演的角色
成功依赖于深度学习的最新发展。当使用批量标准化、dropout和指数线性单元时,我们证明了精度的提高,这意味着深度学习的普遍进步也可以改善脑信号解码。使用这些技术带来的改进复制了计算机视觉和其他领域的最新发现。在我们的研究中,深度卷积神经网络在

Hz数据上的改进最为显著(结果6),这表明网络很容易在这种背景下过拟合,其中频带功率特征可能占主导地位。这与我们观察到的裁剪训练(通过增加训练示例的数量来对抗过拟合)也显著提高了

Hz数据的精度(结果8)是一致的。尽管在架构和频带上有一些变化。这种改进一开始并不明显,因为批处理归一化在某些情况下可以消除dropout,然而在另一项使用ConvNets解码EEG数据的研究中也发现了这种改进。深度卷积神经网络得到的小批量改进与elu已经允许快速学习的说法一致。然而,所有这些发现都受到这些方法之间以及与所有其他超参数之间可能存在相互作用这一事实的限制。到目前为止,我们也没有明确解释ReLUs与ELUs在精度上的巨大差异;最近一项关于计算机视觉任务的研究没有发现这些差异。通过对振荡信号和典型脑电信号噪声的elu和ReLUs行为的数学和实证分析,可以揭示一些合理的原因。

卷积网络体系结构和具有区别性特征的交互
我们研究的另一个发现是,与混合结构和残余结构相比,浅层卷积神经网络的性能与深层卷积神经网络一样好(见结果2、4和7)。通过更深入地研究EEG数据中存在哪些判别特征,以及哪些结构可以更好地利用这些特征,可以更好地理解这些观察到的结果。例如,当网络主要使用EEG频带功率特征、相位相关特征或两者的组合时,研究更多层的影响以及是否存在更深层次表示可能有益的特征将是有趣的(功率和相位在运动解码中的作用)。
我们观察到,进行平方操作对浅层的卷积神经网络很重要,但对深层的卷积神经网络却不重要(结果5)。平方可以让网络更容易地提取频带功率特征:结合近似零均值的输入,网络已经可以通过平方捕获信号的方差。要看到这一点,假设两个带通类滤波器和空间类滤波器卷积层提取一个特定频带的振荡源;然后,平方池和平均池直接计算该源在池区域的方差。使用elu而不是平方,振荡的正部分将保持不变,而负部分将被抑制;当振荡的振幅较大时,池区域的平均值仍会较大,但比正方形激活时的平均值要小。ELU和平方的影响深事先不太简单的分析,随着池地区我们的浅深事先都远小于事先(3 vs 75的样品),因此可能不包括一个足够大的时间跨度来计算一个非常健壮的方差的平均水平。

大幅提高解码精度的可能性

在本文提出的分析中,卷积神经网络并没有比FBCSP大幅度提高精度。在每个受试者有很多变化的组合数据集上,精度提升不会超过3.5%(结果2)。然而,这里使用的深度卷积神经网络可能学习到了与FBCSP不同的特征,这可以解释它们在低频中具有更高的精度,而频带功率特征可能不是那么重要的。然而,在我们的实验中,ConvNets并没有明显优于FBCSP。可能的原因有:数据集可能还不够大,不足以揭示深度卷积网络在脑电图解码中的全部潜力;或者,类区分特征可能没有更深卷积网络可以利用的足够的层次结构。数据集大小的问题可以通过创建更大的数据集来解决,也可以通过跨被试和/或其他数据集使用迁移学习方法来解决。对数据本身和卷积网络的进一步分析可能有助于阐明是否存在具有许多层次结构的特征。最后,递归网络(CNN)可以利用长时间尺度上发生的信号变化,例如,电极在治疗过程中缓慢失去头皮接触,电极帽位置的变化或大脑信号的非平稳性。因此,基于卷积网络的脑电解码方法仍有很大的改进潜力。

这些方法上的改进也可能来自深度学习的进一步方法上的进步,比如新形式的超参数优化,这些进步也许可以转化为更好的脑电图解码精度。如前所述,最近的一些进展,如dropout, batch normalization和指数线性单元可以显著提高卷积神经网络的脑电图解码性能,尤其在我们的深层次的架构上。因此,可以使用其他近期的技术,如更新形式的超参数优化。此外,由于该领域仍在快速发展,新技术有望开发出来,并可能有利于使用卷积神经网络的脑信号解码器。

然而,在“非卷积网络”方法的广泛领域也可能发生方法上的改进。显然,如果脑电图解码存在一种单一的最佳方法,那么目前对于脑电图解码的“最佳”方法没有最终的定论。然而,这项研究的结果表明基于卷积神经网络的解码是这场竞争的一个有力竞争者。

卷积神经网络在脑信号解码方面的潜在优势

除了解码性能外,利用深度卷积神经网络进行脑信号解码还有其他潜在的优点:

首先,几种理想的脑信号解码用深度卷积神经网络很容易实现,这些卷积神经网络以端到端方式进行迭代训练:深度卷积神经网络可以应用于其他类型的任务,如工作量估计、错误或事件相关的潜在解码,甚至其他类型的信号,如MEG或ECoG。此外,卷积神经网络,由于他们的迭代训练,有一个自然的方式预处理和微调;例如,可以根据过去的数据或来自其他受试者的数据对卷积网络进行预训练,然后使用来自新受试者的新数据进行微调。微调可以像在新数据上继续迭代训练过程一样简单,可能具有更小的学习率,这种微调也可以用于执行监督在线适应。

第二,由于它们的联合优化,单个卷积神经网络可以成为多个卷积神经网络更复杂设置的构建块。最近的一个例子是试图创建能够鲁棒地应对输入分布变化的卷积神经网络。这可以用来缓解长期存在的脑电图解码问题,即脑电图信号分布从一个阶段到另一个阶段的变化。

卷积神经网络在脑信号解码中的局限性

卷积神经网络的灵活性也可能是某些脑信号解码场景的限制。例如,脑-机接口的用户应该学会使自己的大脑信号适应解码模型,一个更简单的基于特征的模型可能会产生更好的结果。其中一个例子是BCI康复,用户应该学会加强特定的大脑活动模式。一个类似的例子是使用单个单元激活的脑-机接口的运动解码,研究人员认为线性模型是最好的解码模型。将卷积网络与这些领域的其他技术进行比较,将是进一步研究的一个有趣且和实际相关的方向。

12.2 训练策略

裁剪训练对准确性的影响

我们观察到,为了使深度卷积网络在数据集(除了一些极低频率的数据集以外)上达到有竞争力的精度,裁剪训练是必要的(结果8)。深度网络在

Hz数据上的裁剪训练精度的大幅提高可能表明深度网络需要大量的训练实例来学习提取频带功率特征。这是有意义的,因为移位的邻近窗口可能包含相同的,但移位的振荡信号。这些移位可以防止网络过度拟合试验中的相位信息,这在较高频率下比在较低频率下显得不那么重要。这也可以解释为什么其他关于卷积神经网络脑信号解码的研究(没有使用剪裁训练,但频带功率可能是最具区别性的特征)使用了相当浅的架构,有时发现它们优于更深的版本。

适合在线解码

我们的裁剪训练策略似乎特别适用于在线脑信号解码。如上所述,与传统(非裁剪)训练相比,它可以提供性能优势。另外,裁剪训练允许在线应用中对解码延迟和解码精度之间进行有效的折衷校准。从试验开始到第一个裁剪的最后一个采样点的持续时间应该大致对应解码控制信号所需的最小时间。因此,较小的裁剪可以允许更少的延迟——第一个小裁剪可以在试验的早期样本结束,而不包含太多的时间步长,否则可能会干扰训练过程。相反,较大的裁剪,仍然包含大部分时间步长(timesteps)(采样点),意味着更大的延迟,同时可能增加解码的准确性,因为更多的信息包含在较大的裁剪段中。这些直觉应该在在线实验中得到证实。

12.3 可视化

来自当前可视化的见解

除了探索卷积神经网络如何成功地用于解码脑电图的信息外,我们还开发和测试了两种互补的方法来可视化卷积神经网络从脑电图数据中学习的内容。到目前为止,关于使用卷积神经网络进行脑信号解码的文献,例如,可视化了卷积神经网络层的权重或输出,确定了能够最大程度激活特定卷积滤波器的输入,或描述了试图合成卷积滤波器的首选输入的尝试。在这里,我们应用了相关和因果解释可视化方法可视化了网络所使用的频带功率特征的频率和空间分布。

视觉化显示了运动任务在alpha、beta和gamma波段的合理的、空间局部的空间分布(见“视觉化”部分)。输入特征单元-输出和输入扰动网络预测相关图一起清楚地表明,深度卷积神经网络学会了提取和使用具有特定的、生理上合理的空间分布的波段功率特征。这也表明卷积神经网络使用大脑信号来解码脑电图信号,而不是主要依赖人工成分。因此,虽然FBCSP和浅卷积神经网络都内置了功率计算,但我们的深度卷积神经网络成功地学会了以端到端方式从原始输入执行频带功率特征的计算。我们的网络相关图可以很容易地显示每个受试者和整个受试者组的空间分布。有趣的是,深度卷积神经网络的输入扰动网络预测相关图显示出高度聚焦的模式,特别是在伽马频率范围内的手部运动(图19,最后一行的第一张图)。这与图14所示的常规任务相关频谱分析中更为弥散的模式形成了对比,这表明卷积神经网络可视化可能有助于频谱领域的任务相关大脑测绘,与传统的任务相关谱脑电调制映射技术相比,可能具有更好的定位能力。

通过更复杂的可视化发现特性

我们在这里设计的可视化展示了卷积神经网络如何利用谱带功率特性的振幅。一个简单的扩展是应用这些可视化来展示卷积神经网络如何使用原始的时域脑电图信号的振幅。这可以让我们深入了解诸如事件相关电位等具有区别性的时域特征。一个稍微复杂一点的扩展是将它们应用于circular features ,如相位特征。此外,研究是否使用了新颖或迄今未知的特征并对其进行表征可能更有意思。这对于解码那些我们人工无法认知或提取特征的任务尤其有用。但即使是在本研究中使用的数据,我们的结果表明,深度卷积神经网络使用的特征与浅卷积神经网络和基于FBCSP的解码不同,因为它们的混淆矩阵之间存在统计学上的显著差异(结果3)。这进一步加强了探索深层卷积网络利用的特性的动机,例如,使用可视化技术显示试验的哪些部分与分类决策相关,或者特定的卷积滤波器/单元输出编码是什么。更新的可视化方法,如分层相关性传播,利用卷积网络反演卷积网络或综合单位的首选输入可能是有希望的下一步的研究方向。

结论

总之,卷积神经网络不仅是脑电图解码工具箱中一个新颖的、有前途的工具,而且结合创新的可视化技术,它们还可能为基于EEG的大脑绘图提供一个新的方向。

(0)

相关推荐