亲爱的同学们,我们的世界是3D世界,我们的双眼能够观测三维信息,帮助我们感知距离,导航避障,从而翱翔于天地之间。而当今世界是智能化的世界,我们的科学家们探索各种机器智能技术,让机器能够拥有人类的三维感知能力,并希望在速度和精度上超越人类,比如自动驾驶导航中的定位导航,无人机的自动避障,测量仪中的三维扫描等,都是高智机器智能技术在3D视觉上的具体实现。
立体视觉是三维重建领域的重要方向,它模拟人眼结构用双相机模拟双目,以透视投影、三角测量为基础,通过逻辑复杂的同名点搜索算法,恢复场景中的三维信息。它的应用十分之广泛,自动驾驶、导航避障、文物重建、人脸识别等诸多高科技应用都有它关键的身影。
本课程将带大家由浅入深的了解立体视觉的理论与实践知识。我们会从坐标系讲到相机标定,从被动式立体讲到主动式立体,甚至可能从深度恢复讲到网格构建与处理,感兴趣的同学们,来和我一起探索立体视觉的魅力吧!
本课程是电子资源,所以行文并不会有太多条条框框的约束,但会以逻辑清晰、浅显易懂为目标,水平有限,若有不足之处,还请不吝赐教!随课代码地址:在公众号「3D视觉工坊」,后台回复「坐标系与相机参数」,即可直接下载。
文章目录
针孔模型Pinhole mode
在科学研究中,一个现象内部的过程总是复杂而难以清晰看透,而聪明的学者们总会用最简单的模型去做初始描述,提出一个相对简单的模型。成像过程亦不例外,他们将三维世界中的坐标点映射到二维图像平面的过程用一个几何模型进行描述,这个模型有很多种,其中最简单的称为针孔模型。针孔成像的原理大家都学过,现实世界中源于某个物体的光线穿过针孔,会在底板上投影成一幅倒立的图像。如图1所示:将针孔模型对应到成像过程中,现实世界的物体即为三维空间的成像目标,针孔为摄像机中心,倒影成像平面则为二维影像平面。如图二(左)所示,我们用简单的线条来绘制这样的关系,摄像机中心到成像平面之间的距离我们称之为焦距f。但是倒立的成像总感觉别扭,因此转换一下,将成像平面拿到相机前方来,保持焦距为f,由成像过程可知,图像此时不再是倒立的了,解放了大家的脖子,见图2(右)所示。
从针孔模型中,我们可以找到一个特征,那就是现实世界的任一点、其在成像平面上的投影点、相机中心在一条直线上,这种特征称为中心投影或者透视投影,也是做成像分析的基础。透视投影将三维空间投影到二维平面上,是一种降秩空间透射变换(三维空间降成了二维空间)。
坐标系简介
通过针孔模型,我们了解了成像过程,似乎非常简单,但它此时只是一张图片,给你感官上的理解,要基于它完成复杂的3D测量,必须借用那一连串噼里啪啦让人又爱又恨的数学公式,而公式建立的基础,就是一个个坐标系,具体来说,是一个个笛卡尔坐标系。如果你不知道什么是笛卡尔坐标系,我想你也不会点开我的博客看到这里,所以介绍就此略过。我认为你们已经掌握了一个前提知识:立体视觉的三个关键坐标系是影像坐标系、相机坐标系、世界坐标系。如果没有,那我就强塞给你这个概念。
影像坐标系
上面提到像主点,特别说明一下,它是摄影中心到成像平面的垂点,它是一个非常重要的点位。
为了便于矩阵运算,我们会写成矩阵形式:
公式两边的三维矢量是一种齐次表达方式,即把第三维设置为1来用三维矢量表示二维矢量,这样做的好处是可以用矩阵运算的方式完成三维到二维的变换。为什么要做这个转换呢?是因为坐标系和相机坐标系的紧密联系,同学们往后看。
相机坐标系
相机坐标系是一个三维空间坐标系,是非常关键的一个坐标系,它承担着建立影像坐标系和世界坐标系之间联系的重任。所以前人们在建立相机坐标系时,有一个很关键的考量是如何能更好的把影像坐标系和世界坐标系之间联系起来。两个三维坐标系(相机和世界)之间的转换用旋转和平移就可以方便表达,重点是三维的相机坐标系和二维的影像坐标系之间如何更好转换。方案是这样的:相机坐标系的原点在相机中心,轴和影像坐标系的轴平行,轴垂直于像平面且朝向像平面,轴和像平面的交点正是影像坐标系的原点(像主点)。如图4所示。在此方案下,像平面上的所有像素点在相机坐标系下的Z坐标等于焦距,坐标和影像坐标系下的值相等,即若像素点在影像坐标系下的坐标为,则其在相机坐标系下的坐标为。根据中心投影的特征,假设像素点是空间点的投影点,那么如何建立两兄弟之间的坐标关系呢?
为了便于矩阵运算,我们会写成矩阵形式:
还记得上一节,我们把坐标系转换成坐标系,结合上式,便可以把相机坐标系转换成坐标系,即
内参矩阵
额外需要了解的一点是,由于制造工艺的偏差,像素不是绝对的矩形(图6左),而是一个平行四边形(图6右)。
世界坐标系
世界坐标系是一个固定的三维坐标系,是一个绝对坐标系,它旨在将空间中的所有点都统一到同一个坐标系下表达,在不同的应用场景中,世界坐标系的定义并不一样,比如大地测量中,将水准原点当做世界坐标系的原点;在相机标定中,将标定板的某个角点作为世界坐标系。
世界坐标系和相机坐标系都是三维坐标系,它们之间可以用旋转平移来做转换
或者写成另一种形式:
我们把旋转矩阵 和平移矢量 称为相机的外参矩阵。
外参矩阵
外参矩阵也是相机的关键参数之一,由一个3x3的单位正交旋转矩阵 和3x1的平移矢量 组成,它们描述的是世界坐标系到相机坐标系之间的转换关系。需要提一点的是,在不同学科中外参矩阵会有一些定义区别,比如在摄影测量学科中,将相机坐标系转换到世界坐标系的旋转矩阵 以及摄影中心在世界坐标系中的位置 作为外参。它们目的一致,都是为了描述相机和世界坐标系之间的转换关系。同样用一个简单表达式来描述世界坐标系到相机坐标系的变换:
投影矩阵
虽然我们花很多篇幅介绍了相机坐标系,但是在实践过程中,最直接接触的却是影像坐标系和世界坐标系,在影像三维重建中,通常前者是输入,后者是输出,所以将世界坐标系转换成坐标系是很关键的转换。上文已经得到了世界到相机,相机到的转换公式,因此世界到并没有什么难度:
世界坐标系到影像坐标系的转换实际上表达的是透视投影中空间点到像点的投影关系,所以把该转换矩阵叫做投影矩阵,通过矩阵运算可知投影矩阵是一个3x4的矩阵,它是内参矩阵和外参矩阵的乘积。
总结
本节我们通过针孔模型引入以透视投影为基本原理的相机成像模型,并对一切公式推导的源头:三大坐标系(影像/相机/世界) 做了详细的介绍,在深入了解坐标系的过程中,几类关键的相机参数(内参/外参)也缓缓而出。用图示加公式推导,让大家直观且有逻辑性的掌握这方面的知识,希望能够给入门的同学一些帮助,下一节我们再见。
练习作业
这里为大家准备了一些练习题,可以通过实践加深理解:
练习:写一个Camera类(基于Eigen库 ),用内参矩阵K、旋转矩阵R、平移矩阵t(或相机中心C)来构造
实现接口:
- 有深度作为参数,图像坐标系到相机坐标系的转换I2C
- 有深度作为参数,图像坐标系到世界坐标系的转换I2W