CNNs以端到端的方式学习所有事情,如果一个特征在某个位置是有效的,那在其他某些位置也是有效的,那么CNNs就可以跨位置整合这些信息并很好地归纳。但与人类感知有很大不同。CV的一个关键挑战是处理现实世界的数据波动(variance of data)。人类的视觉系统可以在不同角度、不同背景和不同光照条件下识别目标。当被部分遮挡或颜色变化,人类视觉系统可以利用线索或其他知识来填补缺少的信息,解释我们所看到的内容。创造对相同目标具有识别能力的AI是很困难的。(Creating AI that can replicate the same object recognition capabilities has proven to be very difficult.)CNNs旨在处理翻译(translations)。意味着一个训练好的卷积网络可以识别一个物体,无论它出现在图像中的什么位置(具有空间不变性?)。但是不能很多地处理视点变化(viewpoints)的影响,如旋转和缩放(所以数据增强中有这样的操作)。解决上述问题的一个方法是使用4D或6D图(4D or 6D maps)训练AI,然后再执行目标检测,但这样做的代价很大。目前最好的解决方式是收集大量图像,每个目标在图像以不同的位置显示(gather massive amounts of images that display each object in various positions),也就是说收集的数据,图像中目标的位置是多种多样的,ImageNet数据集就起到了这样的作用。事实上ImageNet作为CV领域的基准数据集已经展现出了一些问题。尽管数据量巨大,但无法包含所有可能的角度和目标位置。数据通常是在理想光照和已知角度下获得的。对于人类视觉系统,从几个角度观察目标就可以相信出其他不同的情况。但是CNNs训练时需要各自情况的样本,它不具备人类的这种相信能力。通常使用数据增强(data augmentation)解决这个问题,进行翻转或旋转图像。CNNs在每个图像的多个副本上训练,它们之间稍有不同,一定程度上提高系统的鲁棒性。但是数据增强也不能涵盖所有的角度情况,现实生活中可能存在的奇怪的情况,如放倒的椅子,床上的T恤,这些CNNs和其他神经网络就难以处理。下图是一个新的数据集ObjectNet中的样本和ImageNet中的比较。但是跨视角、光照、颜色等问题依然影响着现有模型。