同调性——打开拓扑学大门的钥匙,让多维数据 分析变得异常简单
拓扑学似乎是数学的一个异常不精确的分支。它研究的是能够无限弯曲、拉伸和压缩的“橡皮泥形状”。但是拓扑学家规定了一些限制:他们不能在形状中创造或破坏孔(洞)。一个笑话:拓扑学家们分不清咖啡杯和甜甜圈的区别,因为它们都有一个洞。虽然这看起来与代数的严谨相距甚远,但一个叫做同调性( homology)的强大思想帮助数学家们将这两个世界联系起来。
“孔”这个词在日常用语中有很多含义。数学家们感兴趣的是一种特定类型的孔,它可以被描述为一个封闭的中空空间。一维孔看起来像橡皮筋形成的闭合曲线。
扩展这个逻辑,一个二维的孔看起来像一个空心的球。
但是数学具有严密性,虽然用这种方式思考孔可能有助于我们的直觉指向橡皮筋和篮球,但它还不够精确,不足以成为一个数学定义。例如,它不能清晰地描述高维空间中的孔,而且你无法编写计算机程序来区分封闭空间和中空空间。
密歇根州立大学的何塞·佩雷亚(Jose Perea))说:“对于孔,没有一个很好的定义。”
因此,同调性从一个物体的边界推断出它的孔,这是一个更精确的数学概念。为了研究一个物体上的孔,数学家们只需要关于它的边界的信息。
一个形状的边界是其周边点的集合,而一个形状的边界总是比形状本身低一个维度。例如,一维线段的边界由两端的两点组成(点被认为是零维的)。实心三角形的边界是由一维边组成的空心三角形。同样,实心锥体由空心锥体包围。
如果你把两条线段粘在一起,它们相交的边界点就消失了。分开来看,这两条线总共有四个边界点,但当它们粘在一起时,生成的形状只有两个边界点。
如果你加第三条边,创建一个空心三角形,然后边界点完全消失。每条边的边界点与另一个边界点相抵消,空心三角形就没有边界了。所以当一组直线形成一个循环时,边界就消去了。
环状物会自行循环,包围一个中心区域。但只有在中心区域是中空的情况下,这个环才会形成一个孔。画在纸上的圆形成一个圈,但它不是一个孔,因为圆被纸填满了。包围一个实心区域的回路是这个二维区域的边界。
因此,孔洞有两个重要的严格特征。首先,一个孔没有边界,因为它形成一个封闭的形状。第二,一个孔不是其他东西的边界,因为孔本身一定是中空的。
这个定义可以扩展到更高的维度。二维实心三角形由三条边包围。如果你把几个三角形连在一起,一些边界边就会消失。当四个三角形排列成一个金字塔时,每个边都与另一个边相抵消。所以金字塔没有边界。如果金字塔是中空的——也就是说,它不是一个三维立体块的边界——那么它就形成了一个二维孔。
为了在一个特定的拓扑形状中找到所有类型的孔,数学家们建立了一个称为链复合体( a chain complex)的东西,它形成了同调的脚手架。
许多拓扑形状可以通过将不同尺寸的碎片粘在一起来构建。链复合体是一个图解,它给出了一个形状的装配说明。形状的各个部分按维度分组,然后按层次排列:第一层包含所有的点,下一层包含所有的线,以此类推。每一层都通过箭头连接到其下一层,箭头表示它们是如何粘在一起的。例如,一个实心三角形与构成其边界的三条边相连。
数学家从一个形状的复杂链中提取出它的同调,它提供了关于形状的组成部分和它们的边界的结构化数据——正是你需要描述每个维度上的孔的东西。当你使用链复合孔时,寻找10维孔和1维孔的过程几乎是相同的。
同调的定义是非常严格的,计算机可以使用它来发现和计算漏洞,这有助于建立数学中通常需要的严格性。它还允许研究人员将同调性用于分析数据。
这是因为数据可以可视化为漂浮在空间中的点。这些数据点可以表示物理对象的位置(如传感器),或抽象空间中的位置(如食物偏好的描述),附近的点表示味觉相似的人。
为了从数据中形成形状,数学家们在相邻的点之间画线。当三个点靠得很近时,它们就被填充成一个实心三角形。当大量的点聚集在一起时,它们就会形成更复杂、更高维的形状。填充数据点给它们纹理和体积——它从这些点创建一个图像。
同调将这个模糊形状的世界转化为严格的代数世界,代数是数学的一个分支,研究特定的数字结构和对称。数学家在同调代数领域研究这些代数结构的性质。从代数中,他们间接地了解到关于数据的原始拓扑形状的信息。同调有很多种,都与代数有关。
同调性是一个熟悉的结构。我们对它有很多代数方面的知识,麻省理工学院的玛吉·米勒说。
同调性所提供的信息甚至解释了数据的不精确性:如果数据稍有变动,孔的数量应该保持不变。当处理大量数据时,这些孔可以揭示出重要的特征。例如,时变数据中的循环可以表明周期性。其他维度的孔可以显示数据中的簇。
有一种真正的推动力,就是要有可靠的、能够提取定性特征的方法。这就是同调性给你的。
推荐一本拓补学书籍,也是我自己学习的教材,感兴趣的朋友可以从这里购买,支持一下老胡!