NEJM黑科技:人工智能语音信号解码技术帮助失语瘫痪患者恢复语音交流能力
罗思琦‡,吴元波†,黄鑫‡*
†中国科技大学附属第一医院神经内科;‡安徽科大讯飞医疗信息技术有限公司研究院
*通讯作者
因此,人们一直在探索辅助与替代交流手段。例如,由于霍金而被人们所熟知的眼追踪设备(eyetracking computer systems,ETCS),可以利用眼球移动来控制光标点选文字,曾被认为是最有前途的高科技辅助与替代交流手段(high-tech augmentative and alternative communication,HT-AAC)之一。但该类设备容易受到光线环境、患者是否佩戴眼睛、是否存在眼部疾患以及身体姿势等因素的影响[2]。对于易合并眼肌麻痹、眼球震颤的卒中后失语症患者,甚至是合并白内障的老年患者,均存在使用限制。
随着生物电信号及计算机领域的发展与结合,越来越多的目光投向了人机脑接口技术(brain computer interfaces,BCI),BCI也因此成为了一个新型HT-AAC的发展方向。BCI的通常实现方法是通过脑电图监测患者在对电脑屏幕上闪烁的文字或符号进行选定或确认时出现的特殊电位,完成打字。这种方式选择出的信息准确性被证实能达到70%~90%。但在效率上,由于需要逐个字母进行选择,拼写速度仅能达到每分钟0.2~5个单词 [3,4],难以实现有效交流。相比之下,直接通过BCI从控制语言的大脑区域解码整个单词,在实现更直接更有效的交流方面更具潜力。
北京时间2021年7月15日发表在《新英格兰医学杂志》(NEJM)的研究[5]从控制语言的大脑区域解码整个单词的方向着手,对恢复失语瘫痪者的语音交流能力进行了探索。作者采用时间卷积方法对神经活动产生的时间序列样本进行处理[6],通过双向GRU网络对时间序列样本进行单词分类预测。作者对训练过程中的损失函数进行了改进,加大了对高频单词的分类权重,以牺牲低频单词的分类准确率为代价换取整体的单词识别准确率。另外,为了预测试验者在句子任务中试图产生的单词,作者实现了一个具有隐马尔可夫模型结构的维特比解码算法。
论文研究数据显示,当患者试图产生单个单词时,其中98%的尝试都被该设备检测到。而该方法对于单个单词的预测准确率为47.1%。尽管未采用近来热门的深度学习模型[7],但对于句子的预测,在使用了语言模型的情况下,该方法可实时解码试验者大脑皮层活动中的句子,平均每分钟15.2个单词,平均错误率为25.6%。
虽然该研究的词正确率和句正确率均不高,但更重要的是论文所揭示的研究方向。该论文探索了直接从控制语言的大脑区域解码整个单词的方向,患者的输入速度相比之前有了成倍的提升。由于许多人机脑接口程序的解码模型需要以天为计的校准[3,8],而该研究通过收集大量的大脑皮层电描信号与相应句子的训练数据,不需每日校准,具有更好的应用前景。
当然,这项技术在临床研究或患者预后管理实践中的应用也有局限性。首先,信号采集装置需要通过开颅手术完成植入,长期植入后设备及信号的稳定性缺乏数据。其次,当失语症患者合并有理解力或认知力下降的困扰时,语音解码技术并不具备优势。最后,在人工智能技术方面,由于该研究只针对50个单词进行分类,不仅与实际交流使用的数千词汇量相差较大,而且未给出随着单词数量的增加,对应的性能变化趋势。因此该方法能否在实际应用中发挥出作用,还有待进一步验证分析。除此之外,在进行句子或单个单词预测的过程中,如果可以将对试验者提问的信息加入到单个单词或句子预测过程中,相信会带来一定的性能增益。
总体来说,人机脑接口及语音解码技术的出现,对于失语症患者及其照料者而言无疑是新的希望和曙光,尤其是对于包括眼肌在内重度瘫痪的患者。但新技术从出现到具有普适性而真正落地,仍然是一个漫长的过程,还需要大样本研究及大量数据的获取和分析。而开发廉价的硬件和软件,使其易于适应多种访问模式,并根据患者的个人需求进行定制,最终保障每个个体的自主性、自决性和最基本的生活质量,直至生命的终末,应该是一个终极目标。
作者介绍
罗思琦,安徽科大讯飞医疗信息技术有限公司研究院医学研究员。安徽医科大学七年制临床医学专业神经病学硕士。主要从事人工智能与医学临床结合的相关研究及应用,包括基于人工智能技术的辅助诊断、辅助治疗、诊后管理等。
吴元波,中国科技大学附属第一医院神经内科副主任医师,副教授,硕士生导师。从事神经内科临床工作二十余年,作为主持人承担课题2项:安徽省自然科学基金面上项目(1608085MH209);中央高校基本科研业务费专项资金(“科大新医学”联合基金项目)(WK9110000036)。发表研究论文多篇,其中以第一作者(并列第一作者)或通讯作者发表SCI十余篇。
黄鑫,安徽科大讯飞医疗信息技术有限公司研究院算法总监。中国科学技术大学物理学硕士。主要研究领域包括医疗人工智能辅助诊断、疾病预防控制时间序列异常检测、深度学习语音识别等。
参考文献
1. Wang W, Jiang B, Sun H, et al. Prevalence, incidence, and mortality of stroke in china: Results from a nationwide population-based survey of 480 687 adults. Circulation 2017;135:759-771.
2. Linse K, Aust E, Joos M, et al. Communication matters-pitfalls and promise of hightech communication devices in palliative care of severely physically disabled patients with amyotrophic lateral sclerosis. Front Neurol 2018;9:603.
3. Pandarinath C, Nuyujukian P, Blabe CH, et al. High performance communication by people with paralysis using an intracortical brain-computer interface. Elife 2017;6:e18554.
4. Vansteensel MJ, Pels EGM, Bleichner MG, et al. Fully implanted brain-computer interface in a locked-in patient with ALS. N Engl J Med 2016;375:2060-2066.
5. Moses DA, Metzger SL, Liu JR, et al. Neuroprosthesis for decoding speech in a paralyzed person with anarthria. N Engl J Med 2021;385:217-227.
6. Lea C, Flynn MD, Vidal R, et al. Temporal convolutional networks for action segmentation and detection. 2017 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). 2017;1:1003-1012.
7. Lamplev G, Denoyer L, Ranzato M. Unsupervised machine translation using monolingual corpora only. 2017;arXiv:1711.00043v1.
8. Wolpaw JR, Bedlack RS, Reda DJ, et al. Independent home use of a brain-computer interface by people with amyotrophic lateral sclerosis. Neurology 2018;91:e258-e267.