知觉:总结

今天来总结《认知心理学及其启示》的第二章,知觉。
先来看这章的结构:
2.知觉
2.1.视觉信息加工
2.1.1.脑的视知觉
2.1.2.早期视觉信息加工
2.1.3.视细胞中的信息编码
2.1.4.深度与表面知觉
2.1.5.物体知觉
2.2.视觉模式识别
2.2.1.模板匹配模型
2.2.2.特征分析
启示:关于CAPTCHAs的介绍
2.2.3.物体识别(第九版这一节换成了对于深度卷积网络的介绍)
2.2.4.脸的识别(第九版加入了关于面孔识别软件的介绍)
2.3.言语识别
2.3.1.言语的特征分析
2.4.类别性识别
2.5.情境与模式识别
2.5.1.综合情境与特征信息的马萨罗FLMP模型
2.5.2.情境与识别的其他例子
2.6.结论
我常常习惯说,人类是一台高精度的智能行为机器。要想在这个世界中保持精巧的行为,就需要通过传感器获取关于这个世界的各种信息。所以,人类的视觉、听觉、嗅觉、触觉等,都还算是很敏锐的。
先来看视觉,这是一种可以探测远距离信息的官能系统。光线从远处某个物体发射或反射到我们的眼睛里,视网膜再将光信息编码成神经信号,发送到大脑的视觉处理中枢。而大脑的相当部分都和视觉信息加工有关,这足见视觉有多重要。
要让视觉系统发挥作用,需要光线感受器、信号传输网络以及视觉信息加工器这三个部件都正常起作用才行。
视觉信息加工器其实是一个很复杂的部件,从不同的视觉失认症患者的表现来看,视知觉可以分析早期阶段和晚期阶段。早期阶段出故障的人,连简单的图形和物体都无法识别。而晚期阶段出故障的人,能识别简单的图形,但不能进行模式识别,不能看出那些图形的意义。正如34页的图,图中的那条狗,如果没有一定的模式识别能力,是看不出来的。
早期视觉信息加工主要是指,光信号从视网膜到大脑的视觉中枢这一过程。而后期视觉信息加工主要指模式识别。这些过程有很多技术性细节,大家可能不太感兴趣。我将一些有趣的知识点总结如下:
1.辨认颜色的视锥细胞细胞只集中在中央凹处,但对于普通人来说,整个视野都是有颜色的,而不仅仅是中心部分有颜色。
2.左半边视野的神经信号都传递给右脑来处理,而右半边视野的神经信号都传递给左脑来处理。所以,靠近鼻子的内侧的视网膜传出的神经会经过视交叉,而外侧的不会。
3.视觉信息传递到经过后脑勺的枕叶时,已经经过了一些加工。换言之,在信息编码阶段,不同的传感器已经对于视觉信息做出了筛选和预处理。越往后就越处理越复杂的信息。比如,有一些神经元只对看起来像是“手”的视觉信息起反应,而“手”的方向则是要其他神经元来处理。
4.枕叶往顶叶叫“where通路”,处理视觉对象的方位。往颞叶则是“what通路”,处理视觉对象的意义。
5.要想从二维的视网膜传递的信息中,建构出一个三维的世界,就需要利用上纹理梯度、立体视察和运动视差等线索。
6.我们看到的实际上不是一大堆杂乱的线条和颜色,而是有组织的物体。但传输到视觉中枢的信息,其实更像是前者。后者是我们根据格式塔组织原则建构起来的。这样的原则有接近原则、相似原则、良好连续原则、闭合原则。根据这些原则,我们将零散的图案看作一个个有组织的物体。
7.以前的计算机软件经常用模板匹配的方式来识别图像,就是将看到的视觉刺激与已经储存好的模板进行比较。既然计算机可以用这种方式来进行模式识别,人类也可能是采用这种方式来识别视觉对象。
8.特征分析也可以看作一种模板匹配,只是已经存储的模板变成了更小的特征单元。比如,我们并不储存一个关于汉字“鸟”的模板,而是通过一些更小的笔画特征来识别汉字“鸟”。这样一来,不同书写形式的“鸟”都可能得到正确识别。当然,一些长得跟“鸟”很相似的字,也可能会被我们误以为是“鸟”,比如“乌”。
9.现在的计算机软件识别物体的本事相当高。因为,工程师们采用了“深度学习”的新技术。大家还记得,谷歌在2012年时,成功设计出了能识别猫的软件。而现在,大家的手机都装有人脸解锁的软件,也是依靠相似的技术。这可以说明,“人工神经网络”在某些方面已经取得了和神经网络相似的成果了。
关于言语识别,下面有一些值得注意的知识点。
1.在听别人说话时,我们能听到字与字之间的间隔,这就像是英文单词之间的空格一样。但实际上,这样的间隔和空格并不存在。比如,在听一个我们并不属于的语言时,我们听到的是连续的声音,而不是离散的语词。因为我们没有能力将声音分割成单词。从一些病例报告上看,也许存在专门进行“分词”的神经组织,当这一组织受损时,病人难以识别言语,但能识别其他声音。
2.人类的言语识别也可能是根据特征分析来进行的。比如,可以根据辅音特征、浊音音质和发音部位来识别音素。音素就是语音的基本单位。
3.在识别言语时,我们经常要区分不同但又很相似的声音。比如ba和pa,这两个声音其实很相似,甚至可以说,它们之间是连续的。但人类会在一个突然的分界线上,将ba识别pa,或者将pa识别为ba。为什么会这样呢?不太清楚。也许大自然这样设计言语知觉系统,自有其用意。
在进行模式识别时,我们人类不仅是一台被动的模式识别机器,还是一台主动的模式识别机器。我们会利用情境以及我们关于情境的预期和已有的知识,来识别模式。在28页,中间的类似“A”的图案是一样的,但在THE中被识别为H,而在CAT中被识别为A。这是因为我们预期这是一个有意义的单词。
同理,我们也都很熟悉汉语。所以,我们有时注意不到一些错别字。书中有的是将cdit看成edit的例子。这有两种解释。一种是说,我们在视觉处理的早期阶段就错误地识别了那些汉字。另一种是说,眼睛并没有欺骗我们,是脑子中的预期“欺骗”了我们。我们是否有能力设计出一项实验,来判断哪种解释更加合理呢?
练习题都不难。这里略过。书中有了马赫带的例子,让我们换成棋盘图,再来思考一下,人类知觉的特征:
我们会觉得这个图不仅仅是一个二维的线条和色块,而是一个三维的东西,是一个黑白相间的棋盘上面放着一个绿色的圆柱体。而且,我们还能“看出”,光线是沿着右上角往左下角射的,毕竟,棋盘上留下了圆柱体的影子。
本章最关键的问题就是,我们自以为看到的这些东西,真的就是这些东西吗?
如果你的回答是“是”。那么你就并没有理解人类这台行为机器的运作原理。人类在知觉这个世界时,除了自下而上的加工之外,还带有自上而下的加工。可以说,我们总是在看见我们想要看见的东西。
(0)

相关推荐