【CHI2019论文】手势识别的2篇论文:BeamBand和Fine-grained hand activity
手势识别是人机交互(HCI)领域火热的研究方向,在研究与商业化上都有很好的发展前景。手势识别除了能丰富交互方式,还可以提升使用的沉浸感,在智能手表和虚拟增强现实的交互中广泛应用。
除了常见的图像识别,可以使用的信号还包括加速度、生物声学信号、肌电信号等。以下2篇文章是CHI2019发布的来自CMU人机交互研究所的与手相关的工作。
利用超声波波束形成感知手势
实验配置
BeamBand是一份关于手势识别的工作。BeamBand使用了可穿戴的超声波发射器,并通过分析波束形成(Beamforming)对不同的手势分类。
超声波反射应用广泛,在近一个世纪以前就用于潜艇的声呐系统,自然界有不少动物也通过类似原理实现对周围环境的检测。BeamBand系统使用了低成本的40k赫兹声呐传感器。
BeamBand使用多发射源多接收器(8个传感器),按一定时间序列发射信号可以获知发射源正前方特定的距离或距发射源不同角度的反射波束。该工作对于每个传感器,采集了7段不同的波束,分别来自5个不同的角度和0度角2cm和8cm距离处的反射波(见图B)
数据处理
这样每一帧总共会有56段波束信号,每段信号的采样时长为1.5毫秒、样本数为500样本。为生成和采集这56段波束信号,作者团队特制了电路板,将一次轮询数据采集控制在112毫秒以内,即达到至少每秒8次信号采集的帧率。
在数据处理方面该份工作处理方式较为简单,对每段信号分成20小段,并对每小段内的信号求得方差,得到1120维的特征向量,最后使用随机森林分类。
结果讨论
实验对10名用户的9种手势10轮采集。使用留一法交叉验证可以得到超过90%的准确率。作者团队对比了一些相似的穿戴设备的手势识别工作,比如Tomo,其采用的是电阻抗断层成像而不是超声波反射。Tomo使用了其中7种手势,并达到96.6%的准确率,而对这7种手势BeamBand可以达到了92.5%。但是BeamBand对于再次使用方面存在优势,对于可穿戴设备,脱下并再次穿戴会改变采集到信号,因此大大降低分类成功率。对于重新穿戴设备试验,Tomo准确率会直降至65.3%而BeamBand准确率仍然可以维持在86.0%。
BeamBand所使用的超声波可以穿过不少编织地不太密的衣服材料而依然保持较高信号强度,相对于基于视觉的设备可以更好地处理来自衣袖的遮挡。虽然该工作以目前的准确率来说还很难做到商业化使用,但对于此手势识别方法的概念性验证可以得知,相比一些其它手势识别系统的研究该工作仍具有很强的竞争力。
链接
论文标题: BeamBand: Hand Gesture Sensing with Ultrasonic Beamforming
作者: Yasha Iravantchi, Mayank Goel, Chris Harrison
论文Video: https://www.youtube.com/watch?v=jhY4NsIW2kQ
提及的论文Tomo: https://yangzhang.dev/research/Tomo/Tomo.pdf
细粒度手动行为感知
另一份工作是关于手活动检测,仅利用当前可以获得的智能手表,就能以95.2%的准确率检测出以下25种(下图的24种加一个刷牙的场景)手的活动。
市面上的智能手表已经可以非常好地检测出用户的走路、骑车、驾驶和睡觉状态,这些状态常被用于身体健康监测。但这些活动都属于大幅度的粗粒度身体活动,这份工作表明目前的智能手表还可以完成细粒度的手活动的检测,与手势或手动作(一次击掌)略有不同,手活动通常表示持续数秒的动作序列(例如持续拍手)。
该工作采用了LG的智能手表W100,修改了其公开部分的内核获得了手表实时4k赫兹3轴加速度传感器数值。这个加速度传感器可以用于表示粗粒度的手移动,由于其灵敏性也可以用于分析生物声学信号。
前期准备与学习
为了研究人们日常生活中通常进行的活动以及各活动的信号之间是否有明显差异,研究团队招募了50名实验者为期2周佩戴手表的采集数据,手表中的App每隔一段时间采集数据并提示用户请求用户标注数据,最终产生了5065条有标注的数据。
对于以上数据,最终选定了其中25个关于手的原子活动。对于采集到的数据,研究者选取了其中3秒,将其分为48小段,然后对3轴的数据分别进行快速傅里叶变换(FFT),最终每轴每段截取0-128赫兹部分,粒度0.5赫兹,共256个信号强度。手活动部分的预处理将加速度传感器信号变为256×48×3的数据。下图为3秒内的频谱强度图。
实验与结果
对于采集到的数据,该工作采用了类似于VGG结构的神经网络,将预处理过后的256×48×3信号数据作为输入,以softmax函数作为25类手活动概率作为输出。
真实的数据取自最终进行的用户实验,12名用户的4组(最后一组需要脱下手表并重新穿戴)25个活动的信号。前2组活动用于训练,第3组和第4组用于测试。
对于同一个用户不脱下手表的测试(使用第3组数据作为测试),实验的准确率达到了95.2%。考虑手表的重新穿戴(使用第4组数据作为测试),系统准确率下降至88.3%。考虑一个模型预测所有用户,将所有数据训练并测试可得到准确率90.7%,而采用留一用户的方法测试最终得到的平均准确率为79.2%。下图为单一用户不重新穿戴手表的分类结果矩阵。
链接
该工作继承于此实验室内3年前发表的另一份相似的工作ViBand,同样非常值得一读。
论文标题: Sensing Fine-Grained Hand Activity with Smartwatches
作者: Gierad Laput Chris Harrison
论文github: http://github.com/FIGLAB/hand-activities
提及的ViBand论文: https://robertxiao.ca/pubs/2016_UIST_ViBand.pdf
学术头条已建立微信交流群,想进群的同学请加学术君微信:AMiner308,记得备注:名字+单位/学校