为什么图像处理如此困难

新机器视觉

最前沿的机器视觉与计算机视觉技术
206篇原创内容
公众号
来源 | 小白学视觉

常会有人问“图像处理中的开放的领域是什么?”

在图像处理/计算机视觉方面,一切仍然是一个开放的研究领域!

但为什么会这样呢?你认为经过几十年的研究,我们会很自然地说“这里的问题已经解决了,让我们专注于别的事情”。在某种程度上,我们可以这样说,但仅适用于狭窄和简单的用例(例如,在空的白板上放置红色勺子),而不是一般的计算机视觉(例如,在所有可能的场景中找到一把红色的勺子,就像一个大盒子满了五颜六色的玩具)。

在我们深入研究我认为计算机视觉如此严峻的主要原因之前,我首先需要解释机器如何“看到”图像。当我们人类观看图像时,我们会感知物体,人物或景观。当机器“查看”图像时,他们看到的只是代表单个像素的数字。

一个例子可以解释这一点。假设你有一个灰度图像。然后,每个像素由一个通常在0到255之间的数字表示(我在这里抽象压缩,颜色空间等等),其中0表示黑色(无颜色),255表示白色(全强度) )。0到255之间的任何一个都是灰色阴影,如下图所示。

因此,对于要任何获取图像内容的机器来说,它必须以某种方式处理这些数字。这正是图像/视频处理和计算机视觉的全部 - 处理数字

接下来将从四个方面来解释,解决这个问题非常困难的主要原因。

  1. 数据量大

  2. 固有的信息丢失

  3. 伴随噪音

  4. 理解图像含义困难

数据量大

正如我上面所说,当涉及到图像时,所有计算机都看到数字...... 很多数字!许多数字意味着需要处理的大量数据才能被理解。

我们举一个例子来说明图像的数据量究竟有多大。如果您具有1920 x 1080分辨率的灰度(黑白)图像,则表示您的图像由200万个数字(1920 * 1080 = 2,073,600像素)描述。现在,如果切换到彩色图像,则需要三倍的数字,因为通常情况下,当您表示彩色像素时,您可以指定它所包含的读数,蓝色和绿色。然后,如果你试图分析来自视频/摄像机流的图像,例如30帧/秒的帧速率(现在是标准的帧速率),你突然处理1.8亿个数字每秒(3 * 2,073,600 * 30~ = 1.8亿像素/秒)。这是需要处理的大量数据!即使拥有当今功能强大的处理器和相对较大的内存大小,机器也很难做出有意义的事情,每秒有1.8亿个数字。

信息丢失

数字化过程中的信息丢失是造成计算机视觉难度的另一个主要因素。图像处理的本质是从3D世界(如果我们处理视频流中的数据则是4D)投影到2D平面(即平面图像)上获取信息。这意味着在此过程中会丢失大量信息。

我们的大脑可以非常出色的推断出丢失的数据是什么,但是对于计算机来说却是极其困难的挑战。下图显示的是一个凌乱的房间

我们可以很容易地看出,绿色健身球比桌子上的黑色平底锅更大更远。但是如果黑色平底锅比绿色球占据更多的像素,机器应该如何推断呢?这不是一件容易的事。当然,我们可以尝试通过同时拍摄两张照片并从中提取3D信息来模拟我们用两只眼睛看到的方式,这被称为立体视觉。然而,将图像拼接在一起也不是一项微不足道的任务,因为同样是一个开放的研究领域。

伴随噪声

数字化过程中经常伴随着噪音。例如,没有相机会拍摄出一个完美的不含噪声的现实图片,特别是当我们用手机上的相机进行拍照时,他们会通过调整强度等级,色彩饱和度等去尝试捕捉我们美丽的世界。同时在图像拍摄过程中肯能会出现“镜头光晕”的现象,我们可以轻松的判断光晕后面是什么场景,而对于计算机来说确实非常困难的。

虽然已经有很多去除光晕的算法,但是去除光晕的算法本身也是开放的领域。

另外,在图像压缩的过程中会对图像降低像素或者变换操作,而这样的图片对于人来说可以轻松的识别,而对于计算机,如果不告诉它压缩变换的操作,它会当作压缩后的图像为原图像进行识别,从而产生错误。

理解图像含义困难

最后也是最重要的是就是对图像内容的理解。对于机器来说,这绝对是计算机视觉环境中最难处理的事情。当我们观看图像时,我们会用累积的学习和记忆(称为先验知识)来分析它。

例如,我们知道,我们可以坐在健身球上,而平底锅通常用在厨房里,因为这些东西我们过去已经了解过。如果有一些东西看起来像天空中的平底锅,很可能它不是平底锅(除非是红太狼把打灰太狼的平底锅扔天上了),因此我们可以进一步仔细检查,以确定对象可能是什么(例如飞盘!)。或者如果有人围着绿球踢球,很可能是小孩子的球而不是健身球。

但机器没有这种知识。他们不了解我们的世界,不了解其中固有的复杂性,以及我们在数千年的进化中创造的众多工具,商品,设备等。也许有一天机器将能够获得维基百科并从那里了解有关对象的信息,但目前我们离这种情况很远。

有些人会争辩说,我们永远不会达到机器能够完全理解我们现实的阶段 - 因为意识总是对他们来说是遥不可及的。

但是在未来的发展中谁又说的好呢。

(0)

相关推荐

  • 数字图像处理(上海交大版)

    EEWORLD 电子资讯 犀利解读 技术干货 每日更新 随着近年来AI概念的大火,计算机视觉和机器视觉应用赢来了新的机遇,而与其息息相关的核心技术之一数字图像处理也得到了快速发展.数字图像处理(Dig ...

  • 【AI白身境】深度学习必备图像基础

    今天是新专栏<AI白身境>的第四篇,所谓白身,就是什么都不会,还没有进入角色. 我们已经说了linux基础和python基础,接下来就要开始真正干活了.所谓万丈高楼平地起,正式从事深度学习 ...

  • 2018计算机视觉及机器学习重要会议汇总

    2017年初,我们总结了2017年计算机视觉,机器学习和人工智能领域内的重要会议.下面我们根据经验总结了2018年计算机视觉,图像处理及机器学习比较重要的会议及简单的说明,供大家参考(下列列表按时间顺 ...

  • 什么是计算机视觉?什么是机器视觉?

    每天,我们睁开眼都会看见这个多彩的世界,五彩斑斓的花朵.湛蓝的天空.还有亲人熟悉的笑容,对于每一个健康人一出生便享有上天赐予的美好特权,我们可以通过眼镜感知这个世界.然而,小伙伴们知道视觉对于机器人是 ...

  • 保姆级计算机视觉学习路线

    因工作需要,年初花了4个月左右时间学习了机器学习.神经网络相关的知识,工作日每天大概学习4-6个小时,周末每天大概10个小时,工作中的需求应对也得心应手了. 想快速入门的话,从自己的经验看,可以先不看 ...

  • 视频教程 | 数字图像处理

    人类从外界获得的信息约有75%是从图像中获得的.数字图像处理是用计算机对图像信息进行处理的一门技术,使利用计算机对图像进行各种处理的技术和方法,是信息科学中发展较快的热点研究方向.随着现代电子.计算机 ...

  • 【推荐】Python图像处理工具有哪些?

    对比其他编程语言,Python更适合图像处理,因为Python有好多工具包应用于图像处理当中,既能提高效率,也能节省时间.那么Python图像处理工具有哪些?本文为大家介绍10个Python图像处理工 ...

  • AForge.net简介和认识

    AForge.NET是一个专门为开发者和研究者基于C#框架设计的,他包括计算机视觉与人工智能,图像处理,神经网络,遗传算法,机器学习,模糊系统,机器人控制等领域. 这个框架由一系列的类库组成.主要包括 ...

  • 全文翻译:Deep Learning for Image Super

    综述用于图像超分辨率的深度学习 作者:Zhihao Wang, Jian Chen, Steven C.H. Hoi, Fellow, IEEE 论文地址:https://arxiv.org/abs/ ...

  • 哲学的慰藉:根治我们的与世不合、缺陷、伤心和困难

    <哲学的慰藉>针对六个不同的人生问题--与世不合.缺少钱财.受到挫折.被认为有缺陷.伤心.困难--德波顿分别向苏格拉底.伊壁鸠鲁.塞内加.蒙田.叔本华.尼采这六位哲学家取经,希望这些哲学家 ...

  • 书评|民企江湖,在中国实业发展是如此困难,难得的好书

    对人物故事的一点看法 柳均,故事的主人公,德籍,被开工厂的老父亲忽悠回国,想要拯救自家工厂,但问题实在太多,索性关了重开,以避开税务问题.却从此守着工厂脱不开身. 他钻研技术,但国内市场不按常理出牌, ...

  • 产后便秘严重,排便困难,用力排便时导致肛裂出血,血流如注,面色萎黄,神疲少气,舌淡唇白,脉细微。

    症状:产后便秘严重,排便困难,用力排便时导致肛裂出血,血流如注,面色萎黄,神疲少气,舌淡唇白,脉细微. 病因:产后血虚,血亏津液少,伤及脾阳 治法:健脾补血,养津润燥 方子:红参10克.炙甘草10克. ...

  • 职位招聘困难的7个提醒

    在过去的一年中,尽管疫情的影响打击了无数行业,但其中许多职位仍然需求旺盛,很难招募.IT专家和公共卫生部门人员也比以往任何时候都更加重要,而且也难以填补. 这些公司并不是唯一想知道如何找到未来人才的公 ...

  • 电喷摩托车故障检修有那么困难吗?谨记这“六先六后”

    电喷系统是一个精密而复杂的系统,对发动机的运转性能有很大的影响,不论是该系统的ECU.控制线路还是其它任何一个传感器.执行器出现故障,都会在一定程度上影响发动机的起动性.运转稳定性.动力性.经济性等. ...

  • 病虫害防治困难,打药没效果,教你一招儿轻松搞定!

    最近有农户反映自己种植草莓辣椒长得都是虫,换了好多次药都不好使.其中红蜘蛛最顽固,蚜虫.青虫也杀不死,用药多了,害虫没有打死掉,庄稼都快被打虫药给打死了.这是为啥呢?这怎么办才好?下面小编就给大家分析 ...

  • 基于system verilog的图像处理验证平台 bmp文件解析

    版权所有:转载请注明 https://blog.csdn.net/jayash/article/details/79947314 基于FPGA的图像处理中,rtl代码的仿真验证一直是重中之重, 之前也 ...

  • 当你最困难,最无助的时候,读一读这六句话

    当你最困难,最无助的时候,读一读这六句话

  • 入睡困难,失眠多梦,易醒,10种常用中成药,一定要备好!

    第1种,灵芝胶囊--适用于失眠多梦,健忘心悸的轻症. 第2种,速效酸枣仁安神胶囊--适用于失眠,惊悸怔仲.心神不安者. 第3种,珍合灵片--适用于失眠多梦,惊悸怔忡兼心律失常者. 第4种,脑力宝丸-- ...