《Nature》封面重磅:意念打字!每分钟90字符,准确率超99%!
Nature封面重磅发布:可将脑中想象的「笔迹」转为屏幕文本,准确率超99%. 而且,受试者可以每分钟输入90个字符,这是此前使用脑机接口打字纪录的两倍多,接近同龄健全人每分钟115个字符的智能手机打字速度。
无需植入,机器学习搞定「读心术」。
长期以来,人们都对「读心」的概念着迷。
说话,这项看似毫不费力的活动,实际上却是人类最复杂的动作之一。
说话需要精确、动态地协调声道发音器官结构中的肌肉——嘴唇、舌头、喉部和下颌。
当由于中风、肌萎缩侧索硬化症(ALS)或其他神经系统疾病而导致言语中断时,丧失说话能力可能是毁灭性的。
本周Nature封面重磅发布一项「拯救性」研究:可将脑中「笔迹」转为屏幕字句,速度创记录,准确率超99%。
这种方法的重要突破在于:其速度与健全的同龄人在智能手机上发短信的速度相媲美。
首次聚焦「手写体」,接近同龄健全人智能手机打字速度
近年来,以马斯克Neuralink为代表的许多脑机接口公司,都在致力于开发类似的大脑植入技术。
然而,没有人研究过手写体。
来自斯坦福大学霍华德・休斯医学研究所(HHMI)研究员克里希纳・谢诺伊教授(Krishna Shenoy)与科学家弗兰克・威利特(Frank Willett)表示,此次研究的最大创新是首次破译了与手写笔记有关的大脑信号。斯坦福神经外科医生杰米・亨德森(Jaimie Henderson)也参与了这项研究。
此前,谢诺伊的团队对与语言相关的神经活动进行了解码,他们让植入了神经传感器的受试者尝试手臂运动来移动屏幕上的光标,以指向并单击字母并拼出单词和句子。
以这种方式指向和点击字母让人们每分钟输入大约40个字符,这是之前用脑机接口(BCI)打字的速度记录。
而在最新实验中,一名受试者可以每分钟输入90个字符,这是此前使用脑机接口打字纪录的两倍多,接近同龄健全人每分钟115个字符的智能手机打字速度。在线原始准确率为94.1%,离线自动校正的准确率超过 99%.
「大脑-文本」BCI
该实验的受试者名为「T5」,他因14年前的脊髓损伤几乎失去了颈部以下的活动能力,仅能做手部抽搐和微动。
受试者通过想象他拿着钢笔在一张纸上尝试写句子,就好像他的手没有瘫痪一样。
书写时,利用传感器从各个神经元收集信号,一个机器学习算法识别了他的大脑在每个字母上产生的模式。
有了这个系统,受试者复制书写(按照所提供的句子再写一次)句子和回答问题的速度与同龄人在智能手机上打字的速度相当。
威利特说,这种所谓的「大脑到文本」的BCI之所以如此快速,是因为每个字母的书写都会产生一种非常独特的活动模式,这使得算法相对容易区分一个字母和另一个字母。
亨德森博士在受试者的左脑上放置了两个脑机接口芯片,每个芯片有100个电极,这些电极从运动皮层部分发射的神经元中提取信号,从而控制手部的运动。
这些神经信号通过电线发送到计算机,在计算机上人工智能算法对信号进行解码,并推测T5预期的手和手指运动。
用于打字的脑机接口
威利特等人开发出的脑机接口通过将想象中的手写尝试所产生的神经活动转化为计算机屏幕上的文本,使瘫痪的人能够打字。
简单描述就是植入大脑的电极在受试者想象书写每个字母时测量许多神经元的活动(线表示每个神经元激发的时间点)。
一个叫做递归神经网络(RNN)的深度学习模型学习每个字符产生的神经活动模式,并分析这些活动模式如何跨越多个试验相关联,生成聚类图。
这个信息被一个算法用来预测参与者在当前试验中想象的字母,然后这个预测被翻译成一个排版输出。
笔迹的神经表征
高准确率来自RNN模型
利用RNN需要大量的训练数据,但这些数据在神经接口中是有限的,因为很少有用户愿意想象连续写作数小时。这是该实验的一大难点。
研究团队用一种被称为「数据增强」的方法解决了该问题。
在这种方法中,参与者先前产生的神经活动模式被用来产生句子,在这些句子上训练RNN。他们还通过在神经活动模式中引入人为的变化来扩展他们的训练数据,以模仿人类大脑中自然发生的变化。
在这项研究中,T5需要把每个字母重复10次,让软件「学习」识别与他尝试写那个特定字母相关的神经信号。
在接下来数小时的测试中,T5被展示了几组句子,并被要求在大脑中尝试「手写」每一个句子,没有使用大写字母。这些句子比如,「i interrupted, unable to keep silent,」和「within thirty seconds the army had landed.」。
随着时间的推移,这些算法提高了它们区分代表不同字母或符号的神经放电模式的能力。算法对T5意图写的任何字母的解读在大约「半秒的延迟」后出现在电脑屏幕上。
T5还被要求复制书写算法从未接触过的句子。他最终能够每分钟写出90个字符,大约18个单词。之后,他被要求回答开放性的问题(需要一些停顿来思考),他每分钟写了73.8个字符(平均接近15个单词),是2017年研究中自由书写记录速度的三倍。
威利特等人的算法做到了准确分类。复制书写错误率大约是每18或19个字符中有一个错误;自由书写错误率约为每11或12个字符中有一个。
当研究人员通过包括预测语言模型(类似于智能手机上的自动纠错功能)后,错误率明显较低:复制书写的错误率低于1%,自由书写的错误率略高于2%。
「与其他脑机接口相比,这些错误率相当低。」谢诺伊说。
训练数据集已公开
接下来,该小组的目标是与无法说话或患有诸如肌萎缩性侧索硬化症(ALS)之类的退化性神经系统疾病的参与者合作,这种疾病会夺走患者的说话能力。
威利特和同事的研究开始兑现 BCI 技术的承诺。iBCIs 将需要提供巨大的性能和可用性收益,以证明将电极植入大脑的相关费用和风险是合理的。
重要的是,打字速度并不是决定是否采用这项技术的唯一因素,这种方法的寿命和鲁棒性也需要分析。
研究人员提供了有前景的证据,证明他们的算法在有限的训练数据下仍能表现良好,但随着神经活动模式的改变,可能还需要进一步的研究,才能使设备在使用寿命期间保持运转。
未来继续进行研究以测试该方法是否可以推广到其他用户以及实验室以外的场景也至关重要的。
另一个问题是这种方法将如何扩展和翻译成其他语言。威利特和他的同事们的模拟研究突出表明,拉丁字母中的几个字母书写方式相似(例如 r, v和u) ,因此比其他字母更难分类。
拉丁字母中的几个字母书写方式相似(例如 r, v和u)
另外,比如泰米尔语有247个字母,字母彼此之间密切相关,所以可能很难分类。对于那些还没有被机器学习的语言预测模型很好地表示出来的语言来说,翻译问题尤其重要。
虽然还有很多工作要做,但威利特和同事们的研究是一个里程碑,它拓宽了iBCI的应用。
由于它使用的机器学习方法正在迅速改进,插入最新的模型为未来的改进提供了一条有前景的道路。研究小组还将其数据集公开,以加速研究进展。