UC伯克利黑科技:用语音数据预测说话人手势
昨天CVPR 论文终于提供下载:
重磅!CVPR 2019 论文终于全面开放下载!附百度云链接
看到一篇CVPR 2019 论文《Learning Individual Styles of Conversational Gesture》,通过语音数据识别说话人手势,觉得蛮有意思。
下面这张图道出了作者们做的事情:
最下面一排是语音信号,中间是通过语音信号生成的手势数据,最上面是通过得到的手势数据合成的人物视频。
看起来还真是那么回事~
以下是作者信息:
作者来自UC伯克利、Zebra Medical Vision、MIT(简直就是黑科技集中营)。
手势识别是人机交互中的重要技术,以往的方案中可以使用深度相机数据识别,也可以使用RGB图像视频识别,对于前者Intel貌似一直做的很不错,对于后者现在最知名的开源库就是OpenPose了(OpenCV手部关键点检测(手势识别)代码示例)。
手势毕竟应该是个视觉问题,不通过视觉信号能识别手势吗?
在现实的人类沟通中,手势和说话人语音往往是强相关的,手势信号是人类正常沟通的一部分。这在演讲中表现最为明显。
通过人类说话的视频数据建立语音与手势的关系,然后直接通过语音生成手势,这看起来是个很大胆的想法。
为了避免人工标注,论文作者们直接使用OpenPose对人物说话的视频进行姿态估计,得到手和臂的手势数据。
虽然这种弱监督信息有一些标注错误,但在这个问题上已经够用了。
然后作者们的做法也非常简单粗暴,直接使用语音数据UNet解码结构生成手势姿态中关键点的位置。
如下图:
输入数据是一段语音频谱数据(2D log-mel spectrogram),通过全卷积网络和1D UNet结构,生成手势数据,通过L1 回归Loss监督学习。
另外作者发现只用L1回归损失是不够的,容易回归到手势的均值状态,作者又加了一个判别器D,用于判别生成的手势像不像真的。
跟其他方法比起来,本文算法在数值结果上是很优秀的:
视觉比较也很自然(请点击查看大图):
大家可以通过视频感受下:
视频中将手势合成人物动作的技术来自:
C. Chan, S. Ginosar, T. Zhou, and A. A. Efros. Everybody Dance Now. ArXiv e-prints, Aug. 2018.
当然这一技术很有用,比如可以直接用其控制虚拟主持人的手势,让直播更自然。
作者称代码将开源,而且创建的数据也提供下载。
论文地址:
https://arxiv.org/abs/1906.04160v1
项目地址:
http://people.eecs.berkeley.edu/~shiry/speech2gesture/
代码地址:
https://github.com/amirbar/speech2gesture
技术在造假成真的路上走的越来越远了。。。