Facobook开源视觉问答VQA框架：Pythia

2024-09-11 16:50:01

VQA Challenge 2018的冠军方案。

(欢迎关注“我爱计算机视觉”，一个有价值有深度的公众号~)

什么是视觉问答VQA（Visual Question Answering）？

给定一幅图片及与图片相关的问题，系统通过理解图片回答这个问题，它涉及到图像识别和自然语言理解。

比如这些例子：

它是计算机视觉和自然语言处理问题的高级综合，好的VQA系统可以帮助盲人理解这个世界。

Pythia开源目的

Facebook AI Research的研究员们参加了VQA Challenge 2018，并获得了冠军，他们发现现今的很多VQA系统都有一些相同的功能模块，比如问题编码，图像特征提取，两者的融合（典型的使用attention模型），答案空间的分类等，他们将自己的获胜方案开源，期望它能成为VQA或相关方向比如视觉对话（visual dialog）领域易用和模块化的研究平台。

VQA Challenge 2018的Leaderboard：

Pythia（皮媞亚）是向Oracle of Apollo at Delphi的致敬，她在古希腊神话中传达旨意、回答问题。

Pythia架构与改进

Pythia主要参考了up-down模型[1],并在

Model Architecture、

Learning Schedule、

Fine-Tuning Bottom-Up Features、

Data Augmentation、

Post-Challenge Improvements、

Model Ensembling做了改进。

下表展示了加上各种改进后系统在VQA v2.0数据库上的测试精度。

在模型集成上，集成差异化更大的不同的模型，获得的改进更大。

项目主页：

https://github.com/facebookresearch/pythia

[1]P. Anderson, X. He, C. Buehler, D. Teney, M. Johnson, S. Gould, and L. Zhang. Bottom-up and top-down attention for image captioning and visual question answering. In CVPR, 2018.

2021年了，Transformer有可能替代CNN吗？未来有哪些研究方向？

Transformer 的跨界之旅,从 2020 延续到了 2021. 2020 年 5 月,Facebook AI 推出了 Detection Transformer,用于目标检测和全景分割.这是第 ...
历经6年 AI终于在“读图会意”上超越人类

前不久,在中文语言理解权威评测基准CLUE中,阿里巴巴的AI模型在新闻文本上超越了人类识别精确度.现在"读图会意"上,阿里巴巴达摩院在VQA上也超越了人类,这是榜单设立6年来的首次 ...
CVPR2019|基于场景图的可解释显示视觉推理

计算机视觉三大顶会之一CVPR2019在美国洛杉矶举办,此前接收结果已经公布,一共有1300篇论文被接收,接收率为25.2%. 今天分享给大家的是其中一篇被接收的论文<Explainable a ...
地表最强VLP模型！谷歌大脑和CMU提出极简弱监督模型

深度学习技术前沿 130篇原创内容公众号来源:arxiv 编辑:Priscilla 好困&新智元 [导读]谷歌大脑与CMU华人团队提出全新图像+文本预训练模型SimVLM,在最简单的模型结 ...
有关半自动灯检的14个问答！

Questions & Answers:Semi-Automated Visual Inspection 半自动目视检查的问答 In a webinar onsemi-automated vi ...
【泡泡图灵智库】自动驾驶高效视觉标签提取

作者: Aseem Behl, Kashyap Chitta, Aditya Prakash, Eshed Ohn-Bar, and Andreas Geiger 来源:CVPR 2020 编译 : ...
跨界出圈 | 谈谈BERT跨模态预训练

NewBeeNLP原创出品公众号专栏作者@上杉翔二悠闲会 · 信息检索 BERT以及BERT后时代在NLP各项任务上都是强势刷榜,多模态领域也不遑多让.前几天我们刚分享了复旦邱锡鹏老师的报告:复旦 ...
人工智能又一新用法，AI助破译残缺古希腊碑文

一直以来,机器学习和AI都被应用于大至寻找域外行星.预测气候.大规模人脸识别,小至换脸.打游戏.翻译服务等.而在学术领域方面,AI又有了新用途. 属于谷歌.创造AlphaGo的世界前沿人工智能公司De ...
谷歌推出新开源库，计算速度提高100倍；Facebook开源深度学习框架Pythia

近日,谷歌正式发布TensorNetwork,这是与加拿大Perimeter理论物理研究所和谷歌母公司Alphabet旗下的X实验室合作开发的开源库和API.Facebook的人工智能研究部门也宣布开 ...
开源移动端 IM 框架 MobileIMSDK v6.0 发布

一.更新内容简介本次为主要版本更新(本次更新内容见文末"MobileIMSDK v6.0更新内容 "一节),强势升级,将同时支持TCP.UDP.WebSocket三种协议,精心封 ...
腾讯开源内部跨端框架 Hippy，打磨三年，日均 PV 过亿

12 月 20 日,腾讯开源跨端框架 Hippy.在腾讯内部,Hippy 已运行 3 年之久,跨 BG 共有 18 款线上业务正在使用 Hippy,日均 PV 过亿,且已建立一套完整生态.相较于其他跨 ...
AI + 3D！英伟达开源3D深度学习框架Kaolin

3D计算机视觉在医学影像.自动驾驶.机器人深度感知.视频游戏.虚拟和增强现实中有重要应用. 近日,英伟达新开源了kaolin深度学习框架,旨在加速3D计算机视觉的研究.其基于PyTorch实现,包括主 ...
C3F：首个开源人群计数算法框架

导读:52CV曾经报道多篇拥挤人群计数相关的技术,比如最近的: CVPR 2019 | 西北工业大学开源拥挤人群数据集生成工具,大幅提升算法精度视频监控的普及,需求推动技术的快速进步. 本文为首个P ...
推荐！京东开源姿态跟踪新框架LightTrack！

也是最近最值得参考的姿态跟踪方面的工作- 在论文<LightTrack: A Generic Framework for Online Top-Down Human Pose Tracking& ...
微软和谷歌分别开源分布式深度学习框架，各自厉害在哪？

大数据文摘出品来源:Medium 编译:Miggy 微软和谷歌一直在积极研究用于训练深度神经网络的新框架,并且在最近将各自的成果开源--微软的PipeDream和谷歌的GPipe. 原则上看,他 ...
当CV遇上联邦学习！FedVision：首个轻量级、可扩展的视觉联邦开源框架

深度学习算法的创新.高性能计算能力的提升以及移动互联网时代数据的增长带来了计算机视觉技术与落地应用的爆发性增长,而高速发展之后,人们对数据安全与隐私保护担忧也逐渐浮现. 联邦学习允许用户在将数据保留在 ...
15个最受欢迎的Python开源框架

编辑推荐: 本文来源博客园,主要通过示例演示15个最受欢迎的Python开源框架,希望对您的学习有所帮助. 一.Django: Python Web应用开发框架 Django是一个开放源代码的Web应 ...

Facobook开源视觉问答VQA框架：Pythia

相关推荐