多模态学习,英文全称 MultiModa...
多模态学习,英文全称 MultiModal Machine Learning (MMML),从1970年代起步。已经经历了多个发展阶段,在2010后,全面进入深度学习的阶段。多模态机器学习,以机器学习实现处理和理解多源模态信息的能力。图像、视频、音频、语义之间的多模态学习比较热门。
比如互联网大型视频平台,抖音快手爱奇艺优酷腾讯,都会将多模态技术用于视频理解业务,可以加视频封面,视频抽帧,加文本信息融合,比如做视频分类,视频质量评估。
当计算机能够看懂视频可以做的事情就很多了,比如说审核推荐搜索和特效这些都是增加客户粘性,提高用户使用时长的工具。
用学术的语言来表达,五多模态学习五个研究方向:1.多模态表示学习 Multimodal Representation;2.模态转化 Translation;3.对齐 Alignment;4.多模态融合 Multimodal Fusion;5.协同学习 Co-learning。
以多模态情感分析为例,综合利用多个模态的数据(图里文字、面部表情、声音),数据里的信息互补,得到准确的情感判断。
再比如在自动驾驶领域,毫米波和视觉(摄像头)融合,因为自动驾驶涉及多种传感器,会涉及多传感器信息融合。
多模态学习,工业界用的比较多。
赞 (0)