视觉感知-从人类视觉到计算机视觉

重磅干货,第一时间送达

人的视觉皮层由1.4亿个神经元组成,是大脑中最神秘的部分之一,负责处理和解释视觉数据以提供感知力并建立记忆。人们可以从少量信息中获取相关环境的大量信息。例如给定一幅图像,我们可以利用上下文和先验知识得知整个故事。

但是,使计算机感知视觉世界有多困难?截至2019年,我们才取得了一定进展,但依旧还有很长的路要走。计算机视觉是计算机科学的一个相对较新的领域,大约有60年的历史。

人类视野的演变

5.5亿年前生命主要存在于水中,但是5.43亿年前地球上的物种急剧增加,牛津大学的动物学家安德鲁·帕克(Andrew Parker)在他的著作《In The Blink Of An Eye》中称其为寒武纪爆发。这是由于视觉的突然进化,引发了动物进化或死亡。也就是视觉激发进化大爆炸的方式。

大脑如何解决视觉问题?

直到1959年,我们对生物视觉的了解还是很少。1959年,哈佛医学院的两名神经生物学家David Hubel和Torsten Wiesel进行了一项惊人的实验,揭示了人类视觉系统的几个秘密,并获得了2项诺贝尔奖。

https://www.youtube.com/watchv=NV1uBSSC8jE&feature=youtu.be

他们记录了猫脑中单个神经元的电活动。他们使用幻灯机向猫展示了特定的图案,并注意到特定的图案刺激了大脑特定部位的活动。实验表明,视觉皮层细胞对边缘的方向敏感,但对边缘的位置不敏感。他们得出结论,视觉皮层中有3种类型的细胞:简单,复杂和超复杂。视觉处理从简单的单元格开始,这意味着它从学习简单的事物(即边和角)开始。这为现代计算机视觉奠定了基础。

从生物视觉到计算机视觉

上世纪70年代,麻省理工学院的神经科学家David Marr借鉴了Hubel和Wiesel关于大脑视觉处理系统的实验的想法,开始制定计算机视觉来模仿人类的视觉能力。他说,为了理解视觉信息,在视觉皮层中对其进行处理时需要分几步进行处理。他提出了这样的假设:存在少量形成原始视觉对象的几何组成形状。他把他的大部分发现都放在了《视觉》一书中。

多年来,受视觉皮层中分层处理的启发,通用对象识别的分层方法变得越来越流行。人们开始思考人类视觉已经解决的问题,例如人脸识别,物体识别和分割。

1966年,麻省理工学院夏季视觉项目(MIT Summer Vision Project)在麻省理工学院开始了首次正式的计算机视觉工作,旨在在1966年夏季解决计算机视觉问题。

古典计算机视觉

在现代深度学习启发计算机视觉之前,在70年代,人们开始使用模板匹配方法和滑动窗口方法来解决对象识别和检测问题,以进行对象检测和分类。

在给定对象模板的情况下,我们可以在数百个可能的窗口中查找模板对象。但是在现实世界中,由于视点,比例尺和照明变化,遮挡而无法使用。同样,我们不可能拥有所有可能的模板来为类内或类间变异建模。

因此人们开始使用基于功能的方法。特征点是图像中特殊的点,其对于上述变化保持不变。

在另一个场景中匹配对象。-大卫·劳(David Lowe),1999年

在1999年,David Lowe 在ICCV会议上发表了SIFT -Scale不变特征变换。SIFT的想法是-将图像内容转换为对平移,旋转,缩放和其他成像参数不变的局部特征坐标。现在将其描述为经典计算机视觉的AlexNet时刻。由于使用SIFT,人们无需考虑比例尺,照明变化和遮挡物,因此为对象识别研究提供了动力。

机器学习启发了计算机视觉

到2000年,统计机器学习已在人们眼中飞速发展。保罗·维奥拉(Paul Viola)和迈克尔·琼斯(Michael Jones)在2001年使用机器学习开发了最好的人脸检测算法之一,目前它仍然是最快的人脸检测方法之一。

Apple Face ID

2006年,Fujifilm制造了第一台内置人脸检测的相机。支持向量机在90年代后期的成功使计算机视觉更容易进行对象分类任务。仍然缺乏进行研究的数据集。为了创建一个标准的,面向研究的数据集,牛津大学视觉几何小组的安德鲁·齐瑟曼和马克·埃弗林汉姆共同创建了PASCAL视觉对象类数据集为视觉和机器学习社区提供了图像和注释的标准数据集,以及标准的评估程序。它导致了分类算法和检测算法的发展,但由于现代机器学习算法的模型容量较高,并且PASCAL数据集的大小相对较小,因此模型很容易过拟合,并且在看不见的图像上无法给出良好的结果。

深度学习的寒武纪大爆炸

研究人员一直在努力设计越来越复杂的算法,以对多媒体数据进行索引,检索,组织和注释。但是好的研究需要好的资源。要大规模解决这些问题,如果存在大规模图像数据库,将对研究人员有极大帮助。这是斯坦福视觉实验室的李飞飞教授的ImageNet,超过15万张图片的数据集。李飞飞的博士之一 Pietro Perona是Jitendra Malik的学生。2011年,Jitendra致电Geoffrey Hinton并建议他使用ImageNet,在第二年的2012年NIPS大会欣顿(Hinton)与亚历克斯·克里热夫斯基(Alex Krizhevsky)共同发布了AlexNet,在2018年GTC峰会上,这被NVIDIA首席执行官黄仁勋称为寒武纪深度学习爆炸

幻灯片,黄仁勋(Jensen Huang),NVIDIA GTC,2018年

结果是非常惊人,甚至让李飞飞教授也感到惊讶,并认为数据集有问题。从那时起,现代计算机视觉便一直受到深度学习的影响。

为什么计算机视觉很难?

视觉理解远远超出了对象识别范围。瞥一眼图像,我们可以毫不费力地想象超出像素范围的世界:例如,我们可以推断人们的行为,目标和精神状态。尽管这项任务对人类来说很容易,但对于当今的视觉系统而言却是极为困难的,需要对世界的高阶认知和常识推理。

该项目始于1966年的MIT夏季视觉项目,旨在于当年夏季解决计算机问题,即使经过这些巨大的努力,它也仍无法解决问题,它仅在少数特定的受限环境中有效。

交流群

(0)

相关推荐

  • 人眼与计算机视觉,有啥不一样?

    与其他众多AI发展目标一样,计算机视觉是那种说起来容易,但实现起来却极难的挑战. 来源丨The Next Web 编译丨科技行者 自人工智能发展早期以来,科学家们就一直梦想着创造出能够"观察 ...

  • 自动驾驶感知系统是否可以打破障碍物识别不到的魔咒?

    文章转自:北京市高级别自动驾驶示范区 ↓聊聊自动驾驶环境感知↓ ❤欢迎关注<智驾最前沿>视频号❤ 这两天自动驾驶又站在了风口浪尖,外界对于自动驾驶的批判主要在于当前方有障碍物时,为何车辆没 ...

  • 陈根:计算机视觉——模拟人类视觉系统

    文/陈根 作为智能世界的双眼,计算机视觉是人工智能技术里的一大分支.计算机视觉通过模拟人类视觉系统,赋予计算机"看"和"认知"的能力,是计算机认识世界的基础. ...

  • 未来计算机视觉技术发展面临的挑战有哪些?

    众所周知人工智能技术分支有很多,这包括:机器学习.知识图谱.自然语言处理.人机交互.计算机视觉.生物特征识别以及AR/VR等,为了能够深入了解人工智能,需要明白未来计算机视觉技术发展面临的挑战. 计算 ...

  • 一文带你了解基于视觉的机器人抓取自学习

    作者:夏初 来源:公众号@计算机视觉工坊 "一眼就能学会动作",或许对人而言,这样的要求有点过高,然而,在机器人的身上,这个想法正在逐步实现中.马斯克(Elon Musk)创立的人 ...

  • 研究显示,抑郁症患者的视觉感知不同于常人「研究速递」

    最近发表于<精神病学和神经科学杂志>上的一项研究证实,抑郁症患者对视觉信息的处理不同于常人,这可能与大脑皮层处理信息的方式有关. 研究概况 已有研究表明,重度抑郁症患者的视觉对比信息加工可 ...

  • 研究速递|抑郁症会影响视觉感知能力

    赫尔辛基大学精神病学和心理学专业的研究人员调查了抑郁症对视觉知觉的影响.该研究证实,抑郁症患者的视觉信息处理能力发生了变化,这种现象很可能与大脑皮层信息处理能力有关.该研究发表在Journal of ...

  • 奥比中光CTO肖振中率队厦大开讲,详解3D视觉感知底层技术与产业应用

    6月11日-13日,国内首个三维视觉学术会议China3DV在厦门大学举办.大会铂金赞助商.行业领先的3D视觉感知技术整体方案提供商奥比中光为参会者完整展示了3D视觉感知底层技术全图及产业化应用进展, ...

  • 意大利插画师超写实彩铅手绘,呈现原本视觉感知的世界!

    /  marcello barenghi / Marcello Barenghi是充满激情的意大利艺术家,他用彩色铅笔描绘极了一组超现实主义风格的真实小物,一同分享给大家. 一张纸,一套仅有铅笔.钢笔 ...

  • 自动驾驶的视觉感知包括哪些内容?

    本文针对自动驾驶行业的视觉感知做简要介绍,从传感器端的对比,到数据的采集标注,进而对感知算法进行分析,给出各个模块的难点和解决方案,最后介绍感知模块的主流框架设计. 目录 传感器组件 相机标定 数据标 ...

  • AI艺术先驱,挑战人类视觉的智力游戏 | Victor Vasarely

    微店:森雅艺术馆 视频号:森雅艺术馆 www.triceratops-design.com 他是光效应绘画的奠基人之一, 也是欧普艺术的杰出代表, 被誉为"欧普艺术之父". 大卫· ...

  • 机器人视觉感知原理

    机械人的蓝海,机器人的世界, 如果机器人需要和外界环境进行交互,那么机器人首先必须要感知周围的环境.机器视觉是最为常用的一种感知周围环境的方法.这里,我们将简单介绍机器视觉领域一些基本的概念.机器视觉 ...

  • 特斯拉AI DAY:坚持视觉感知 用AI神经网络技术提升辅助驾驶能力

    特斯拉重新设计迭代了神经网络,利用了多头路径,其中包括摄像机校准.缓存.队列和优化以简化所有任务.通过这些技术的应用,特斯拉的智能辅助驾驶视觉方案将不会依赖高精地图,在车辆行驶过程中系统会自动绘制地图 ...