看穿你的五分钟和下一秒：AI动作能帮助人类做到什么？

2024-05-09 03:11:11

相信了解电竞的人，一定对“预判”二字非常熟悉。在游戏中，玩家通过丰富的对战经验，对对手的下一步动作进行预估并提前进行反应。在篮球、足球、格斗、拳击等等活动中也是一样，对于高手来说，对手腰侧一动就知道对方要打出左勾拳，便可以提前做出格挡动作。

当然这种能力并不是谁都能拥有，通常都是“高手限定”。只有累积下大量经验加上强大的反应能力才能实现，尤其这种能力偏向于下意识反应和直觉，很难以体系化的方式教授给更多的人。

说到这里，相信很多人都会想到一个问题，我们能否利用AI的力量复制动作预判能力呢？在AI医疗影像阅片、AI拍照等等技术之中，我们已经可以看到AI对于专家能力的捕捉和复制。

其实此前有不少研究者对此进行相关尝试，常见的方法是通过Kinect设备来定点采集人的动作，将动作转化为数据，通过机器学习方法训练模型，通过预测数据进而模拟人的下一步动作。可很快人们就发现，这种设备采集式的动作预测并没有什么作用，因为配搭采集设备会极大的阻碍人类进行动作，从数据采集成本上来说也相对较高。

一直以来，科学家们也都在尝试利用其它方法来实现AI动作预测。

例如通过说话声音来实现

在与他人交谈，尤其是公开演讲时，人们常常会配上手势来丰富表达。那么有没有可能，这些手势动作进行预测呢？在UC Berkeley和MIT的研究中，就通过声音语言来实现了这一点。

研究人员收集了10个人144小时的演讲视频，一方面通过视频智能分析算法识别出图像中演讲者手指和手臂的动作，另一方面通过跨模态转换技术，将演讲者的语言声波变换与动作变换一一对应在一起。如此以来，AI就可以通过声音来对人类的动作进行下一步预测。

或是通过RGB图像来预测人体细节姿势

在发现了硬件动作采集的不靠谱之后，人们慢慢开始尝试使用其他方法，例如东京工业大学今年在IEEE上发布了一篇论文，就实现了在简单背景下（例如比较初级的绿幕）通过2D图像进行动作捕捉和精准预测。

这一方法利用残差网络将人体姿势图像转换成一种2D“位置信息”，再通过LSTM学习时序位置，实现对于位置信息的预测。这种方式虽然对于预测对象所处的背景有所要求，但预测能力非常精准，能够达到预测15帧后，即0.5秒后的动作。

甚至直接预言未来五分钟的世界

有人追求细节动作的预测，但德国波恩大学则是以更粗放的方法，追求更长时间的动作预测。以往借助AI实现的动作预测，通常都属于“单步预测”，例如AI可以预测拍球一个动作，知道球接触到手时要向下压，却没法预测拍球之后的运球、投篮等等动作。

而在波恩大学的研究中，研究者将RNN和CNN结合在一起，对不同动作打上标签，既对动作细节进行预测，又对不同标签出现的序列进行预测。在这种方式之下，AI仅仅通过两个小时的学习，就能够在人类制作沙拉时，对剩下80%的动作进行预测。

从“怎么想”到“怎么做”：

AI动作预测能解决哪些问题？

伴随着AI动作预测在技术上越来越完备，这一技术的应用场景也被开发的越来越多。目前来说，我们可以为AI动作预测找到以下几种用途。

从基础角度，AI动作预测可以帮助人类更高效的进行体育训练。

在东京工业大学的案例中，用户只需戴上VR眼镜，就能将AI对于人类走路、格斗、搏击甚至踢球时的动作预测能力，以图像的形式投射到眼前人身上。这时再进行动作训练，就可以帮助普通人更加立体化的理解动作运动逻辑。至于在足球这类运动之中，则可以用来进行战术分析。

从更深一层看，只有掌握了利用AI预测动作的能力，才能通过动作细节识别视频的真假。

我们已经看到过很多案例，通过几张照片和一段录音，就能够伪造出视频。那么有了AI动作预测，岂不是更可以学习人类的动作习惯，伪造出更加逼真的视频？实际上只有当我们研发出AI预测动作的技术之后，才能生成对抗性鉴别器，反向对视频中内容的真假进行鉴定。

最后，只有当AI拥有预测人类动作的能力时，人机协作才会更加高效。

很多时候我们以为AI想要和人类配合的亲密无间，需要了解人类的所思所想，实际上想要达到这一点，AI不需要知道人类“怎么想”，只需要知道人类“怎么做”。德国波恩大学提出的设想，就是让AI能够在预测人类动作之后，进行相关反应来配合人类。例如通过预测人类拌沙拉的动作，帮助人类拌好一份半成品沙拉。尤其是在老人护理、儿童陪伴等等场景之中，这些对象由于种种限制可能没法利用语言与机器人进行交互，这时机器人通过动作预测来实现主动服务就变得十分必要。

人类肉体的步步行动无一不受精神支配，通过大脑运作传递肌电信号，才能调动肌肉运动肢体。对于人类和AI来说，弄清大脑的运作方式都有些困难，但如果从“半路”拦截，直接掌握肉体行动的逻辑，或许也是个不错的解决方案。

图灵奖得主：AI要获得常识，自监督学习是钥匙

[新智元导读]Facebook AI发布了一篇Yann LeCun和研究科学家Ishan Misra合写的文章:<自监督学习:智能的暗物质>,文章把「常识」描述为人工智能的「暗物质」,还介 ...
DeepMind AI玩转棋圈后，开始玩转生物圈，破解了50年来预测蛋白质折叠难题

编译希区客蛋白质三维结构的解析对于深入理解蛋白质功能和生理现象起着决定性作用.一般实验室解析某个蛋白结构,需要花费数年时间,而人工智能公司DeepMind新研发的AlphaFold似乎能破解这一难 ...
2张图片就能“算”出个视频，惊呆Reddit网友丨旷视＆北大

鱼羊萧箫发自凹非寺量子位报道 | 公众号 QbitAI 只给AI两张图片,就能得到高帧率动态视频? 输入的两张图像,重叠后是这样的: 而算出来的视频,是酱婶的: 不错,这又是视频插帧算法的功 ...
使用离散世界模型掌握 Atari

深度强化学习 (RL) 使人工代理能够随着时间的推移改进他们的决策.传统的无模型方法通过大量试错与环境交互来了解哪些动作在不同情况下是成功的.相比之下,深度强化学习的最新进展使基于模型的方法能够从图像 ...
下一代AlphaGo问世：数十款游戏全面碾压裸考也能拿满分

Google 母公司 Alphabet 旗下的 DeepMind,在这一个月里大动作频出. 先是在月初推出了蛋白质结构预测 AI--AlphaFold 2,这个 AI 在 CASP 竞赛中拔得头筹,解 ...
假AI？如何辨识 AI 界的snake oil

hi,大家好~我是shadow,一枚设计师/全栈工程师/算法研究员,目前主要研究方向是人工智能写作和人工智能设计,当然偶尔也会跨界到人工智能艺术,其他各种AI产品. 跟大家分享一个我非常喜欢的名词: ...
视频理解综述：动作识别、时序动作定位、视频Embedding

机器之心发布作者:张皓本文将介绍视频理解中的三大基础领域:动作识别(Action Recognition).时序动作定位(Temporal Action Localization)和视频 Embe ...
【知识星球】图像生成玩腻了？视频生成技术何不来了解一下

欢迎大家来到<知识星球>专栏,近些年生成对抗网络技术发展的非常快,图像的生成可以达到以假乱真的效果,而视频生成则是图像生成应用的拓展,研究还非常不成熟,我们星球已经开始更新相关专栏. 作者 ...
他因赌钱输得精光，回家后五分钟写下首歌，销量纪录至今没人打破

历史酿的酒历史酿的酒出品文编辑/留凌轩演艺圈中,不乏有实力派的艺人,而任贤齐便是其中的一个,任贤齐的歌,是一代人的记忆,很多曾经的经典歌曲如今翻红. 说起任贤齐的代表作,很多人不约而同地会想到& ...
厨艺看刀工，一把菜刀五分钟取下鸡骨，干净利落，太精彩！

厨艺看刀工，一把菜刀五分钟取下鸡骨，干净利落，太精彩！
主人拉着狗上街要卖，走到半路发现不对，下一秒狗狗动作泪目

新新欣星关注2021-07-27 17:59动物是人类最友好的朋友:动物是最通人性的,它不像人世间的那些花花草草一样,没有任何的一种表情,动物是有着感情和思想的,每天与小编一起了解更多动物知识狗之所以 ...
下班前五分钟,老板说咱们开个会...网友回复冲上热搜！

15小时前本文转自[生活日报]: 不少网友反馈, 自己在职场中经常碰上这种情况 ↓ 当你辛苦了一天,准备着六点下班.打算回家照顾家人或与亲朋相聚,哪怕放松下自己去出去看个电影.逛逛街:再或者自己去报 ...
动态下拉菜单，学会只要五分钟

小伙伴们好啊,今天咱们一起来制作动态的二级下拉菜单. 先来看效果,使用下拉菜单选择客户区域,在随后的下拉菜单中就会出现该区域的客户名称: 首先来准备一个客户对照表,第一行是用户区域,每一列中是各个区域 ...
青山学教的13道下饭菜，五分钟就学会，回家可以露一手了

[红烧冬瓜球] 用料:冬瓜500g,鸡精5g,白砂糖10g,蚝油10毫升,料酒10毫升,盐3g,姜1小块,红菜辣椒1个,大葱1根做法: 1.冬瓜洗净,用圆形小勺将冬瓜挖出一个个的球形. 2.挖好的冬 ...
脾有邪，其气藏于两髀？每天蝴蝶坐五分钟，拉伸两髀，下焦更健康

脾有邪，其气藏于两髀？每天蝴蝶坐五分钟，拉伸两髀，下焦更健康
别说不会微服务了，五分钟教你巧妙玩转分布式下链路追踪！

本篇文章我将给大家介绍"分布式链路追踪"的内容,对于目前大部分采用微服务架构的公司来说,分布式链路追踪都是必备的,无论它是传统微服务体系亦或是新一代Service Mesh的微服务 ...
0基础金曲速成班 | Vol.24 一曲《送别》感人泪下，原来五分钟就能学会~

△ 辛老师课程视频,点击可全屏观看 △ 赵老师课程视频,点击可全屏观看

看穿你的五分钟和下一秒：AI动作能帮助人类做到什么？

相关推荐