你也能真正理解质能方程E=mc² / 开普饭

说起狭义相对论，感兴趣的人不少。但对狭义相对论中的一些问题，即使是学过狭义相对论的人，可能也不一定正确理解，更不要说那些只是读过一点关于相对论科普文章的人。

这些问题中，有些的确本身比较烧脑。例如车库佯谬、钟慢效应和孪生子效应等。但实际上，只要厘清狭义相对论的基本思想，尤其是抓住它的两条基本假设和作为相对论核心的洛仑兹变换，理解这些问题并非难事。

虽然大多数人自身的理解力和学习能力原本足以弄懂上述这些问题，但可能是不够自信、缺乏耐心或时间，以至没有静下来思考，所以也就没有机会理解和欣赏到这个伟大的理论背后的奥妙之处。当然，他们对此是心知肚明的，也就不会大谈特谈，不懂装懂，只好暗暗计划将来再去彻底弄懂这些问题。

但除此之外，还有一些问题，它们只是表面看起来比较简单，真相并非一目了然，因而被很多人错误的理解。且更重要的是，大多数人对此却浑然不觉，还以为自己早已烂熟于胸，并饶有兴趣的向别人讲解自己的心得体会。

这类问题中，最突出的代表就是质能方程

是的，就是它！凡是上过中学的，谁敢说自己不懂这个等式吗？的确有点不好意思这么说，毕竟它是大多数人对相对论仅存的一点知识。

的确，它看起来实在是太简单了！爱因斯坦将它表述得过于直白，数学上的门槛几乎是零。一百多年过去了，在街头巷尾，茶余饭后，它已成为一个老少皆宜的老话题。

我说二狗啊，你知道吗？能量与质量能相互转化，因为能量与质量等价！一点点质量能变成巨大的能量，而核裂变和热核聚变中，正是它导致大量的质量变成能量。像我手里这个小疙瘩，假设它的质量慢慢亏损掉，你的100世孙都有用不完的能源了......

大多数人在谈论质能关系的时候，几乎没有意识到自己正在谈论狭义相对论。因为看起来，这个式子似乎不需要任何相对论时空观作为基础。甚至完全可以认为，它就是某个横空出世的新理论！与什么相对论唯一的关系是：它碰巧也是爱因斯坦提出的罢了。

同时，在大多数人的心目中，质能方程只有在原子弹、氢弹的爆炸以及原子核衰变这类现象中才会起作用，与我们的日常生活毫无关系。

然而，实际上，它是狭义相对论的必然结果。确切的说，它是狭义相对论的时空观自动导致的！并且，这个方程正时刻统治着我们生活中的一切现象！

要理解这背后的真相，首先要了解它的由来。

本文先简单的介绍一下狭义相对论的基本思想，然后给出一个推理的基本思路，据此逐步推理，在得出质能方程后，再来探讨其中的奥秘。

需要指出的是，本文不是纯科普文章，完全读懂需要一定的微积分数学基础，但总体来讲，讲解比较简单清晰，无需另外进行数学演算。

另外，凡是涉及比较复杂的数学计算的内容，都有提示可选择跳过。本文中浅色字体显示的部分一般都包含比较复杂的数学推导过程，可按自身情况选读。

特别的，对于那些不太关心质能方程由来的读者，或者直接嫌本文过长的人，建议可从第11节开始读，这样你就逃过了大部分复杂的数学过程。

狭义相对论的基本假设

相对论是一种区别于牛顿力学所基于的绝对时空观的新理论。绝对时空观认为，虽然空间位置具有相对性，但空间距离和时间具有绝对性。

伽利略通过观察匀速行驶的船上的各种现象后发现，船上的所有现象及背后的规律与地面上没有差别。换句话说，你不可能通过任何实验来测定你所在的惯性系的运动速度。

据此，伽利略提出了相对性原理：力学规律在任意惯性系都是平权的。根据这个原理，当你从一个惯性系转换到另一个惯性系中时，所有的物理规律的数学形式将保持不变。

按照相对性原理的要求，伽利略提出了一种不同惯性系间的转换策略，它就是伽利略变换。

它是相对性原理的数学实现：保证任何一个物理规律在所有惯性系中都是平权的。也就是说，通过这个变换，任何力学规律在不同的惯性系中保持形式不变。

这种形式不变的特点经常被称作物理规律的协变性。这个词语的意思是，当从一个惯性系变换到另一个惯性系时，虽然物理规律中的物理量的值发生了改变，但这种改变是全体物理量一起协同进行的。所导致的结果是，它们所满足的物理规律的数学形式保持不变。

然而，在遇到麦克斯韦的电磁场理论时，绝对时空观出了问题！简单的说就是，在伽利略变换下，麦克斯韦方程组没有协变性。

相对论时空观是指基于两条基本假设建立起来的，区别于牛顿绝对时空观的新理论。这两条基本假设分别是相对性原理和光速不变原理。

第一条基本假设指出：任何物理规律在所有惯性系中具有相同的数学形式。而第二条假设认为：在真空中，光在任何惯性系中，沿任何方向的的速度都相同。

在牛顿力学中，伽利略变换保证力学规律的协变性，这是力学的相对性原理的要求。而在相对论中，洛伦兹变换保证所有的物理规律具有协变性，这是更广泛的相对性原理的要求，不再局限于力学范围。

根据相对性原理，任何物理规律必须满足洛仑兹协变性。否则就不可能成为相对论框架下的物理规律。

你可能对上面这段话有点不太明白：满不满足洛伦兹协变性成为判断一个命题是否是物理规律的必要条件？

万有引力定律就是一个典型的例子，它不满足洛伦兹协变性，所以它不是狭义相对论框架下的物理规律。

从动能定理入手

质能关系中含有能量，若要了解相对论中的能量到底长啥样，一个最直接的入口是：探讨能量的变化规律。

实际上，在物理学中，我们经常从研究某个量的变化量所服从的规律入手，来获得这个物理量本身的定义或者表达形式。典型的例子，如热力学熵，势能，动能等等。按照牛顿力学，合外力做功导致质点动能增加。换句话说，质点动能就是通过合外力做功来获得的。那么，通过计算合外力做功，就可获得动能的增量所满足的规律，进而获得相对论动能的表达式。

讲到这里，有人可能会说，动能就是啊！直接根据这个不就得到了吗？为什么还要去计算合外力做功呢？

这里要郑重提醒一下，既然现在所讲的是相对论，牛顿力学中那些物理量的形式不再适用了！

因为，按照狭义相对论的相对性原理，任何物理量所满足的物理规律在所有惯性参考系中是一样的，都必须满足洛仑兹协变性。显然，既然牛顿力学中的动能的表达式满足伽利略协变性，那么它不可能同时满足洛仑兹协变性。

那么，怎样定义动能才能符合相对论的要求呢？

前面已经提到了：动能的增量等于合外力做功！实际上，这句话不单单是动能定理的表述，它还同时给出了动能增量的准确的定义。

在牛顿力学中，我们正是在计算合外力做功的结果中发现并得到形式的动能的，请看：

正是因为发现合外力做功可刚好表示为具有形式的东东前后的增量，人们才将其定义为质点动能的表达式嘛！

类似的，刚体的转动动能之所以具有的形式，不也是基于“合外力矩做功等于转动动能的增量”这一共识，才被发现并定义的吗？

那么，在相对论的框架下，我们是否也可以通过计算合外力做功来获得动能的表达式？事实表明，这样做是完全正确的！

然而，相对论里面，合外力又是啥呢？

力在空间和时间上的积累，分别对应功和冲量，前者导致动能改变，后者对应动量改变。刚刚上面就用了功的这个规律——动能定理，那么后者所满足的规律——动量定理，是否在相对论的框架下依然有效呢？

答案是：有效！

根据如下关系左边表明力是动量的导数，如果认为质量守恒，则写出来就是这就是牛顿第二定律。而右边就是动量定理的微分形式。因此，动量定理实际上是牛顿第二定律。牛顿第二定律作为与麦克斯韦方程组具有同等地位的物理学的基本规律，不可能被相对论排除在外，因此动能定律也必然是有效的。

据此，可以根据动量的导数来定义力。一旦得到了力，就可以通过计算做功来获得动能的表达式，进而找到质能方程。

然而，问题又来了，在相对论下，动量又该如何定义呢？

动量还是mv吗？

有人会说：简单啊，动量描述质点运动的量，是质量乘以速度，即

对吗？不对！因为你会发现，在相对论中，如果按照这种动量的定义，动量守恒定律在不同的参考系中不一致。换句话说，在一个参考系里守恒，但在另一个参考系里却不守恒。

举个例子，如下图，在光滑地面上，有两个小球，质量都为m，以等大反向的速度完成完全非弹性碰撞后合在一起成为一个整体。

显然，按照牛顿力学，蓝色球和红色球受到的弹力可以表示为根据牛顿第三定律，作用力等于反作用力，故上式说明，总动量不随时间变化，故动量守恒。无论在什么惯性参考系中，既然牛顿第三定律都成立，则碰撞前后动量不变。也就是说，牛顿力学中，动量守恒定律对任意惯性系都成立。

当然，如果你不放心，你完全可以采用伽利略变换来验证一下。

例如，在地面参考系K中，碰撞前蓝色球和红色球的动量分别为和，总动量为0。碰撞后，系统的速度为0，动量仍为0，动量是守恒的。

综上，牛顿力学中，动量的定义式是没有问题的，它使不受外力的系统在碰撞过程前后的动量在任何惯性系中都具有形式的关系。这意味着动量守恒具有伽利略协变性，它成为一条物理规律。

那么，在相对论中，若还按定义动量，会导致什么情况呢？

先来看地面参考系K中的情况。碰撞前，二者动量等大反向，总动量为0；碰撞后，速度为0，总动量也为0，动量守恒。

不过，由于本文不打算细推洛伦兹变换，所以也就不讲这个速度变换的来历了，这里直接给出沿参考系相对运动方向的速度变换

这说明，在不同的参考系中，碰撞前后总动量的关系的数学表达式具有不同的形式，故动量守恒定律不满足洛仑兹协变性。换句话说，动量守恒不是一个物理规律。而导致这个问题的罪魁祸首是动量的定义式。

由于动量守恒定律是如此的重要，必须想办法来重新定义动量，使动量守恒定律符合洛仑兹协变性。

要重新定义动量，那得先来看一下力学中动量到底是什么，它是如何被定义的？这大概要从一个重要的物理学原理讲起。

最小作用量原理

本文从一开始，就反复提到相对性原理，它是物理学中的一条级别很高的基本原理。梁灿彬教授称之为“管定律的定律”。它的主要工作是判决一个物理定律是否合格。打个比方，如果将物理学看成一家企业，那么相对性原理就是质检部。

其实，还有一条原理，它是负责导出所有这些物理定律——至少力学中是这样的。

就目前所知道的，它就像物理学企业中的发展战略部，给出最高指导思想。企业的各种规则和制度都源于这一机构。它本着一种开源节流，以最佳自然配置的策略，不断优化和提升企业的生产力和销售路径，以最小的成本换取最大的利润。

它就是最小作用量原理！

确切的说，它的名称应该是驻值作用量(stationary action)原理。根据此原理，自然界中的任何一个实际发生的物理过程所对应的作用量总是取极值，可能最大，也可能最小，还可能取一个恒定值。但大多数情况下取极小值，因此得名最小(least)作用量原理。

这里面的作用量可以视为某种代价。但这个代价到底是什么，对不同的物理领域要分别研究。

例如在光学中，这个原理就是费马原理。作用量就是总光程，即每段路的长度乘以折射率，然后累加起来。对连续变化的介质，这个求和就是积分，即

真实的光线的路径总是使总光程取极值。

而对力学系统来说，最小作用量原理也称哈密顿原理。它指出：每个力学系统都可以用一个确定的函数来描述，它就是拉格朗日量，简称拉氏量。这里面的代表一种变量，叫广义坐标，表示它的一阶导数。如果是坐标，那么就是速度。坐标变量的个数是描述系统所需的独立变量的个数，即自由度。

作用量是拉格朗日量的时间积分，即

根据此原理的要求，对真实的力学过程，作用量取极值。

据此极值条件，我们可以得到拉氏量所满足的一个方程，即拉格朗日方程。

拉格朗日方程

本节涉及到一些较为复杂的数学，学过微积分的同学可以看懂。如果对微积分不熟悉或对这部分不感兴趣，可以直接跳到下一节，不影响对本文整体内容的理解。

上面提到的作用量不是一个函数，相反它是一个数。它的值取决于拉氏量的函数形式。换句话说，它是一种以函数形式作为自变量的东东，我们称之为泛函。

如上图，我们要计算a点到b点之间的曲线的长度，可供选择曲线有很多条，每条曲线对应一个函数，以它们为变量，从a到b的之间的曲线的长度就是一个泛函，表示为。

学过函数的都知道，函数可以相互嵌套，形成复合函数，例如。这看起来似乎有点像泛函，但实际上是不同的。泛函中，变化的是函数的运算法则，而复合函数变化的是最内层的那个自变量。

正如函数的自变量的变化导致函数值变化，可以定义微分。类似的，泛函里面的函数的运算法则发生变化，也引起泛函取值变化，可以定义所谓变分，表达式如下例如，上图中蓝色曲线与相邻的绿色和紫色曲线之间的差别就是函数的形式变化累积造成的，如果这种差别无限小，那么它就是变分。

学过热学的人都知道，功和热由于不是状态量，它们的变化与具体的过程有关，而过程可以看作函数，那么功和热都可以看作是过程的泛函。因此功和热的无限小的变化实际上是变分，用区别于d的符号đ表示。

还记得全微分吗？一个二元函数的全微分如下

变分也有类似的规律。例如，只有一个自由度的体系的拉氏量，由于实际上可看作时间的函数，不同的函数形式对应不同的运动情况，这会导致拉氏量产生变分——注意这是函数的变分。而这里面的本身也是变分，因为它是的函数形式变化所导致的。所以，复合函数不光有微分，当它的内层函数发生改变时，也会产生变分。

因此得的表达式为由于是任意的，故上式只能在被积函数为零时才成立，即这就是单自由度体系的拉格朗日方程。若有个自由度，则每个都对应一个拉格朗日方程，即如果你已经知道一个物理体系的拉氏量，那么根据拉格朗日方程，你就会得到体系的运动方程。

Joseph-Louis Lagrange

你可能会马上会问：那么，满足拉格朗日方程的拉格朗日量决定了体系的力学规律？

没错！所以，如何找到这个量是一个核心问题。但要获得正确描述物理体系的拉氏量，可不是一件容易事。通常，人们在物理实验的基础上，借助一些物理原理或规则，拼凑出一个合适的拉氏量。

例如，通过分析得，一个自由粒子的拉氏量为

其中是速度，而被定义为质量。如果有多个相互独立的粒子，那么总的拉氏量就是每个粒子的拉氏量之和，即如果粒子之间有相互作用，需引入一个粒子的位置函数附在上式后面才得到拉氏量再例如，描述强力、弱力及电磁力这三种基本力及组成所有物质的基本粒子的理论，即所谓标准模型，其拉氏量极其复杂，一页都写不下。

现在，我们离定义动量非常近了。不过在真正定义动量之前，让我们再介绍物理学中的另一条基本原理。

对称性与守恒律

说起对称性，很容易想到日常生活中的那些结构对称的物体。例如下面这些图案都具有一定的对称性。

然而物理中的对称性是很深刻的。

德国数学家外尔给出的对称性的定义为：如果一个系统在经历某个作后，保持不变，或变为一个等价的状态，则称系统对该操作具有对称性。

按这个意思，对称意味着不可分辨，也就是等价。

从这个定义来看，对称性不局限于空间，还可以包括时间，甚至体系的其他的性质，例如电荷等。同时，它也不局限于物体的结构，还包括物理现象，甚至物理规律。

例如，转动白色的乒乓球，看上去没有任何变化，这就是旋转对称性；交换分子结构中的某些特定位置的原子，分子结构完全一致，这就是置换对称性；今天做的理实验，与昨天做的结果都一样，这就是物理现象的时间平移对称性；牛顿第二定律中的时间如果反号，保持不变，这说明牛顿第二定律具有时间反演对称性；而经过伽利略变换，牛顿力学的形式保持不变，说明力学规律对伽利略变换具有对称性——称之为协变。

讲到这里，有必要串一下另一个话题。

从事科学研究人都相信，只要条件相同，别人能做成的实验，我也可以做成。换句话说，科学实验必然是可重复的。实验无法重复，你的论文即使发表了，也只能撤稿。

如果用稍微带点哲学的风格来说，就是：相同的原因导致相同的结果。这就是所谓的因果律。

但这种表述过于理想化，因为完全相同是不可能实现的！就拿做实验来说吧，你能和其他人同时同地做实验吗？显然不行。

而根据对称性可知，等价的东西，我们看不出差别。所以，因果律有一个比较宽松的版本：等价的原因必然导致等价的结果。

如果改用对称的语言来说就是：对称的原因必然导致对称的结果。举个例子，均匀带电球体形成的电场必然是球对称的。

当然，不对称的原因也可能导致对称的结果。这很容易理解，例如，小明和小红考试都考了100分。

但是，原因中的对称性必然体现在结果中，也就是说，结果中的对称性一定不会少于原因中的对称性。皮埃尔·居里(Pierre Curie)在此基础上提出了更完整的表述，称之为对称性原理，这里就不再赘述了。

那么问题就来了，对称的原因导致对称的结果，这个结果是是什么？例如我们相信，无限大平面上的物理问题具有平移不变性，这会导致什么呢？

你会说，这会导致我在撒哈拉沙漠中原地不动的等死，因为无论我走多少，反正结局一样。

但显然，这不是一个物理问题，而是一个涉及心理学和动物野外生存学的问题。

物理问题需要抽象出高度统一的共性，换句话说，我们要将这种关系形式化的用数学表示出来！

1918年，德国的传奇数学家艾米·诺特(Emmy Noether)完成了这一史诗级的任务。她借助变分法形式化的得到一个数学上高度形式化的结论：每种连续操作下的对称性，都对应一个守恒律。这就是著名的诺特定理，理论物理学中最伟大的定理之一。

根据这个定理，每发现系统的一个对称性，意味着系统中存在一个不变的物理量。诺特发现，动量，能量，角动量这些看起来似乎是人为定义的东西，原来都是时空的某些对称性所导致的，因此，我们能对这些物理量给出高度抽象和普适的形式化定义。

动量与能量的定义

先来看动量。

根据对称性的规律，如果物理系统的空间是均匀的，也就是说空间具有平移不变性，那么这种对称性必然体现在描述物理系统的规律中。因而描述这个体系的拉氏量应该具有空间平移不变性。

考虑三维空间的单个粒子，自由度是3。用坐标作为广义坐标，拉氏量不随坐标移动而变化，即因为是任意的，故代入拉格朗日方程中得

可见，若定义则它正是由空间均匀性所导致的一个守恒量。它就是动量。

你觉得不像动量？将前面提到的自由粒子的拉氏量代入得这下看清了吧！写成矢量式为如果有多个粒子，那么系统总动量为再来看能量。

考虑多个粒子的系统。如果物理体系不随时间变化，也就是满足时间平移不变性，那么类似上面，有故拉氏量的时间导数为联合根据拉格朗日方程得可见，若定义则它正是由时间的均匀性所导致的一个守恒量。它就是能量。

如果将前面提到的相互作用多粒子的拉氏量代入，得看清楚了，它就是粒子的动能加上相互作用的势能，即总能。

从上述过程的看到，空间和时间的平移对称性分别导致动量和能量守恒，动量和能量据此被定义。

这种定义是基于最小作用量原理和对称性与守恒律得到的，而这些规律是物理学中普遍成立的基本规律，因此这种定义也是普适的。

如此看来，只要找到狭义相对论下的拉氏量，我们就可以得到动量和能量了！至于动能，还是按照原计划进行，即通过做功的计算来发现。

然而，如何构造出满足相对论要求的拉氏量呢？

我们从作用量入手吧，因为它是拉氏量的时间积分。

寻找不变量：事件间隔

根据最小作用量原理，真实的力学过程必然导致最小作用量，这个结果应该与参考系无关。那么，很自然想到，如果作用量不随坐标系变化，是一个不变量，那么就能一直满足最小作用量原理的要求。

想想吧，狭义相对论中，令你最刻骨铭心的永恒不变的那个东东是什么？

废话，当然是光速啊！

这样一来，寻找这个不变的作用量，应该离不开光速不变这件事了！

既然如此，有必要将光速不变原理用数学公式呈现出来。俗话的好：“学而不思则罔，思而不学则民科”，数学方法才是物理人最根本的武器，否则一切都是纸上谈兵！

那么，该如何构造一个数学式子表示出光速不变原理呢？你别告诉我是，这与你说”光速不变“这句话没有区别。

对了！洛伦兹变换！它是对相对论基本假设的完美的数学翻译，自然就包含了光速不变原理了！

是的，洛伦兹变换当然体现了光速不变。但它是怎么来的？它离光速不变那个出发点走得太远了点，思想跳跃太多，包含了其他的功能，比如坐标变换。

本文不打算讲洛仑兹变换的由来，初步计划在别的文章中再讲。而本人的一个嗜好是：如果没有讲清楚某个东东的来龙去脉，一般不直接用它。本文只是在第3节处验证牛顿力学中的动量定义不符合洛伦兹协变性时用到了洛伦兹变换的推论——洛伦兹速度变换。在本文后续内容中，也不会涉及洛伦兹变换。

现在先来找一个更单纯的体现光速不变的数学关系式吧。

考察一束光从A点发出和到达B点这两件事。我们在两个惯性系中来看看这两件事。

这里用了时空点这个说法，它代表空间和时间一起构成的四维时空中的一点。如果说的更具体一点，应该是闵可夫斯基四维时空点，也叫世界点。粒子在一段历史过程中的全部世界点连成的一条线，叫世界线。上述积分就是沿着一条世界线进行的。

关于闵氏空间和相关的几何问题，本文暂不涉及，后面将有专门文章介绍。这里我们只要知道，作用量就是间隔的积分乘以一个系数。

那么，为什么积分前面要一个负号呢？

因为这个积分值本身只有最大值没有最小值，而最小作用量原理要求作用量必须具有最小值，所以只有通过加一个负号，才能将积分的的最大值变成最小值。

那么，为什么间隔的积分值只有最大值呢？

根据间隔的定义，间隔的积分为由于，故据此说明上述积分的确有最大值，并且可以看到，此时这个最大值是在当粒子保持静止时取得的，这说明静止的粒子的世界线是最长的。

好了，现在得到作用量的表达式为根据前面所讲，力学的作用量与拉氏量的关系为对比以上两式，拉氏量为现在就剩下系数还未知，有什么办法确定下来呢？

正如上节末提到，现在所考虑的是一个以速度运动的，质量为的粒子。而前面第5节提到，一个服从牛顿力学规律的自由粒子的拉氏量为而牛顿力学是相对论在速度远远小于光速时的近似，换句话说，当时，应该过渡到。

数学上，一个可被重复求导的函数，可被表示为指数从零开始的整数次幂的函数的线性组合。当它自变量取值为小于1的数时，高次幂越来越小，这样就可以按需要的精度选取一定数量的低次幂项作为近似。这就是用泰勒级数求近似值的原理。

现在把看作是小量，将展开为泰勒级数，

保留前两项，得到的近似拉氏量，比牛顿力学下的拉氏量多了一个常数项，这怎么办？

实际上，拉氏量即使加上一个坐标和时间的函数对时间的全微分，力学规律都是一样的，更不要说加上一个常数项。这一点可以从上述拉格朗日方程推导的过程中看出来：既然方程由作用量的变分等于零来决定，即只要满足，代表一样的力学规律。

下面是证明过程，不感兴趣的可以略过。

假设已经得出某体系的拉氏量为，现在给它加上一个如上述的函数，即代入作用量的变分中，得，力学规律相同。

因此，上述低速运动的近似拉氏量等价为将其与牛顿力学拉氏量对比可知故最终得到拉氏量为千呼万唤始出来，拉氏量得到了，后面的问题就好说了。

动量与能量

根据对称性与守恒律，动量与能量分别源于空间和时间的平移不变性，这个规律是物理学中非常基本的原理。连爱因斯坦本人都对诺特的发现赞不绝口，因此，不要说我趋炎附势，见风使舵，根据它定义动量和能量是最佳选择，没有之一。

先看动量。

按照第7节所讲，求拉氏量对速度的导数，即

阿弥陀佛！千辛万苦，终于得到了你预期的动量表达式吧！

再来看能量。

同样按照第7节所讲，能量的定义为代入动量和拉氏量的表达式得这就是质量为粒子在速度为时的总能量。

很显然，当时，粒子静止，此时它具有的能量为这就是静能，此式即所谓的质能方程。

那么总能与静能的差，自然就是因为运动而具有的动能了，即到此，我们已经得到了动能，静能和总能量的表达式。

回顾上述整个过程，大概可以表示为如下路径(订：小→最小；领→量)：但这似乎与本文最初计划路线稍有不同。

哦，想起来了，在本文第2节，原计划沿着动量力做功的路径寻找动能的增量，进而找到动能的表达式。既然现在动能已经得到了，那就用这个方法来验证一下。

这个过程涉及较为复杂的积分运算，不感兴趣可跳过。

由动量的导数得到力，计算力做功，即注意，这里，而。故设，则上式为根据动能定理，这个做功值应该是静止粒子在获得速度后动能的增量，原来动能为零，那么此式就是动能的表达式，即然而，如何接着从这里面发现静能和总能的表达式呢？一个理所当然的想法是：动能表达式的第一项与速度有关，因此应该是获得速度以后的总能；第二项与速度无关，是静止时已有的能量，即静能。

好了，按照原计划，我们也得到了质能方程，路径是与前面通过作拉氏量直接得到的结果完全相同。显然，通过拉氏量得到的方式更具说服力。

得到的结果

到此为止，本文的第一部分讲完了，再集中亮一下我们的伟大成果：

根据最小作用量原理，结合对称性与守恒律，通过拉氏量得到了相对论动量、能量、静能和动能的表达式，分别为

我们看到，这四个表达式总共只涉及三个量，光速，质量和速度。前面两个量都是不变量，而速度是相对的。

下面进入文章的第二部分，解释相对论与牛顿力学的关系，澄清一些常见的误解，并重点揭示质能方程的真正内涵。

过渡到牛顿力学

狭义相对论是普适的理论，牛顿力学只是它在低速运动下的近似。因此上述公式中的动量和动能公式在当速度远小于光速时，必然爽滑过渡到我们熟悉的牛顿力学中的形式。

下面的验证过程涉及泰勒级数，不感兴趣的可以跳过。

对于动量，很容易验证。

当时，，得牛顿力学中的动量。

而对动能，稍微复杂一点。

当时，若直接忽略，则便从式中消失，动能为零，显然不合理。于是将当作小量展开泰勒级数。在上面求拉氏量时也做过泰勒展开，这里方法类似，即我们看到，当保留第一项时，正好就是牛顿力学中的动能表达式。其实严格来说，动量也应该按级数展开来验证，如果那样做，也会发现，第一项正好就是。

从以上过程可见，仅从动量和动能这两个例子，相对论是更精确的理论，而牛顿力学只是一种近似的理论，相对论向下兼容牛顿力学。

动质量，鸡肋也！

根据上面的推导，动量的定义式不再是牛顿力学中的形式。

各位可自行验证，按照这样定义的动量，前面第3节中的两球碰撞中的动量守恒定律必定满足洛仑兹协变性。

不过，绝大多数书上，习惯将动量的表达式写成的形式，其中也就是说，可以认为动量的定义式并没有变，变的是质量。一个静止时质量为的质点，以速度运动后，质量变成了，它被称作动质量。

有了这样一个概念，上面的4个公式可以改写为顿时感觉一下子清爽了多了！

然而，除了这一点好处之外，这个概念没有其他什么用处。相反，有了它，很多人错误的将上面的总能量的表达式看作质能方程，进而认为质量和能量等价，可以相互转化。

然而，真正的质能方程是静能的表达式。这里面的质量是一个不变量，为了避免造成混乱，有时不得不刻意的称之为静质量。

其实，这种做法是完全没必要的。换句话说，动质量是一个完全多余的概念。

按照能量关系式，既然动质量与能量之间只差一个光速，而光速又是不变量，这说明动质量实际上是度量能量的尺度，它和能量是完全等价的概念。两个东西实际上是一个东西，这明显是一种信息冗余，应该去掉一个。

特别是当采用闵氏几何语言，将相对论建立在四维时空上时，动质量一点必要性都没有。因此，爱因斯坦也建议将此概念从相对论中去掉。

摈弃动质量的概念，虽然上面的四个关系式中的三个都回归复杂形式，但是物理概念却更加清晰。质量只有一个，它是一个不随惯性系改变的量。无论一个物体运动速度变得多快或多慢，它的质量不会变，能量并没有在质量和能量之间转换。

很多物理书借助洛伦兹变换，考查两个小球的碰撞过程，推导出动质量与速度的依赖关系，称之为质速关系。并习惯在后续推导中将其当作一条推论直接使用，使动质量的概念更加流行，其实这是完全没有必要的。

本文上面的分析过程中，完全避免了动质量概念，也都得到了全部的规律，本身就是明证。

而本节之所以没有回避动质量这个东东，目的只有一个，就是想告诉读者，是时候抛弃这个无用的概念了。

总之，动质量不是质量，动质量的概念是鸡肋！

质能方程到底说了啥？

现在知道了，质能方程指的是静能关系式，即它代表的意思是什么呢？

有人说，这表明，能量与质量等价，对吗？

不对！这么理解又犯了信息冗余的问题，既然二者等价，那还要两个东西干嘛？事实上，就是因为考虑到动质量与能量等价，才把动质量的概念摒弃了。

有人说，这表明，物质与能量能相互转化，对吗？

也不对！如果将“物质”改成“质量”，在一定程度上是正确的。因为，质量的确可变，会导致吸收或放出能量，但这种情况是有条件和限度的，并不是随意转化。实际上，按照物理的习惯，如果两个东西能够互相转化，那应该写成a+b=常数的形式。例如大家熟知的

它表明动能和势能可以相互转化。

那么说来说去，质能方程到底什么意思呢？

首先，容易理解，一个静止物体是拥有能量的。例如一个爆炸的炸弹，在爆炸之前它是静止的，显然它蕴藏了大量的能量。实际上，一个物体内的包含的能量具有多种形式，它们一起构成静能。

简单的说，质能方程指出这样一个事实：一个静止物体的所拥有的一切能量的总和等于它的质量乘以光速的平方。

如果要强调质量这个主角，上面这个话可说成：质量等于一个静止物体所拥有的一切能量除以光速的平方，即这表明，如果将光速当作1，那么一个物体内一切能量，包括内部组份粒子的静能——这个占绝大部分，热能，弹性势能，电场能，化学能等，它们都分别体现为该物体的一部分质量，而全部这些能量之和等于物体的总质量。

一言以蔽之，质量是对静止物体的所含总能量的度量！

由此理解，你自然会想到，一个静止的物体如果由于某种原因，获得了能量，那么它的质量必然增大，反之，它的质量必然减少。

这可以举很多例子。

你烧开一杯水，假设水被装在一个密闭的容器中，那么它的质量必然增大了，因为水的温度升高了，水分子热运动的动能增加了，这导致系统的静能变大。

静止于桌面上的两个一样的机械钟，那个指针走动的钟比另一个指针停止不动的钟的质量要大一些，因为指针走动意味着它的法条是具有势能的，同时指针还具有动能，它们都成为整个钟的静能的一部分，体现为一部分质量。

一个手电筒，当它发出光的时候，它的质量也在减少，因为作为静能的一部分，电池的化学能以光能的形式辐射出去了，手电筒的静能减少了。

一根弹簧，由松弛状态被拉紧，弹簧获得了外部能量输入，变成它的势能，这个势能也是弹簧静能的一部分，因此弹簧的质量的增大了。

氢气与氧气发生化学反应，末态物质的总质量必定小于反应前氢气和氧气的总质量，因为反应产生了热，它带走了原本属于氢气和氧气的一部分质量。

氢的同位素氘和氚发生核聚变反应，变成氦，必定也会导致末态质量相对初态有亏损，因为轻核聚变会放热。

从这些例子中，我们看到一个事实：物体的质量是不守恒的，除非它与外界不发生能量交换。

什么？质量不守恒？不是开玩笑吧？

这似乎很难理解啊，就拿氢气和氧气反应的事来说吧，既然反应前后氢原子和氧原子的数目都没变，为什么质量会变呢？

质量不守恒定律

学过中学化学的人，都是相信质量守恒的。

原子是化学中的最小单元，也就是说，任何化学反应前后，原子的种类和各类原子的数目是保持不变的。而每种原子的质量不是确定的吗？那反应前后质量怎么会变呢？

物质分子内的原子之间有化学键，如果把原子看作质量确定的小球，化学键就可以看作是不同松紧程度的弹簧。分子的总能量不光包含原子的静能，还包含原子之间相互作用的势能，以及原子振动的动能。换句话说，两个不同的分子，即使所含原子种类和数目一样，也就是具有一样的分子式，因为它们的结合方式不一样，导致彼此聚集成分子后所含能量不同，也就是静止能量不一样，那么它们的质量自然也不一样。

所以一切与外界有能量交换的化学反应，质量必然不守恒。吸热反应，末态物质的质量较反应前增加，而放热反应，末态物质的质量较反应前减少。

不过，上式右边代表静能成分的三项中，第一项——原子的静能占绝大部分，其他两项比重极小，而化学反应吸放热只与这两部分有关，所以化学反应中的吸放的能量不会很大。

因为光速非常大，根据化学反应中的热对应的质量变化非常非常小，仪器无法测量到这种变化，因此在化学领域，质量守恒定律可认为是成立的。

在核裂变或聚变反应中，涉及比原子更小的粒子——亚原子级别的质量亏损，这种亏损的规模远大于化学过程，因此能放出巨大的能量，但其能量的来源与化学反应本质上相同——都是源于组份粒子的相互作用和动能的改变引起的质量亏损。

由此，自然而然的，你也知道了：质量亏损这件事并非只是发生在核裂变或热核反应中的，而是非常普遍的，日常生活中凡是有能量发出的过程，质量必定亏损了！

例如，当你在健身房挥汗如雨时，你的肉身质量也在不断亏损着。而当你安静的躺在阳光沙滩上暴晒时，你的肉分子质量也有所浮盈——幸好你秋毫无察。

也就是说，创造质量或者亏损质量这些事，无时不刻的在我们周围发生着。

质量不是一个守恒量！

实际上，日常生活中的那些物理的，化学的，生物的过程，都不满足质量守恒定律，除非系统完全孤立。

因此，也可以说，没有质量守恒定律，只有质量不守恒定律。

那为什么质量却是一个不变量呢？因为质量不变是指不同的参考系看到的同一个物体的质量相等这一事实，它只涉及时空变换，不涉及物理过程。

与质量相反，能量和动量是守恒量，但却不是不变量。

那么，有没有既是不变量，又是守恒量的物理量？

有的，电荷就是一个例子。

质量不是物质本身

讲到现在，我想你应该意识到这么一个问题：一直以来，很多人把质量等价于物质本身了！

质量是什么？回想中学物理对质量一词的描述：物体所含物质的多少。而牛顿提出，质量是用来量度物质的多少的物理量。可以看到，质量定义本身是比较模糊的，导致人们很容易将质量看成物质本身。

正因为我们相信化学反应前后原子种类和数量不变，也就是所谓物质不灭。如果我们将质量和物质混淆，那么就自然而然觉得，普通的化学反应和日常生活中的一切过程质量应该守恒。

然而，根据能量交换必然导致质量不守恒这样一个事实，我们意识到粒子组成物质时，其质量并不等于组份粒子质量之和。

比如下面这个分子模型，原子之间的弹簧力——化学键带来了影响，整个分子的质量并不等于两个原子质量之和。

组成氦原子的质子、中子和电子的质量总和比一个氦原子的质量大！但粒子的种类和数量其实并没有变。也就是说，构成氦原子的材料其实并没变，这在化学里是用另一个物理量来描述的。

这个物理量叫物质的量，用来描述物质的多少，表示含有一定数目粒子的集体，单位是摩尔。

如果我们将一定的摩尔量的各种粒子当作一定的物质成分，那么可以说，化学反应中，物质的成分的确保持不变，但总质量变了。

所以，质量不是物质本身，它只是物质内部全部能量之和的一个尺度。

按此理解，我们可以说质量亏损变成能量，能量聚集变成质量；但是不能说物质亏损变成能量，也不能说能量聚集变成物质。

有一些文章在讲这个问题时，极力驳斥能量与质量相互转换的说法，认为这一说法乃无稽之谈。他们认为，这样讲很容易带偏。让人误以为质量亏损时，组成物质的粒子本身质量亏损了，而实际上，这些粒子并没有变，改变的是它们聚散的方式和状态，换句话说，那些亏损的质量本来就不是物质，所以也就不存在物质变成能量这回事。

但问题是，由于聚散的变化，本来就导致物质的质量改变了，由于质量是物质的能量尺度，因此就导致能量与质量之间发生转换，这么理解有问题吗？只要没认为物质变成能量或能量变成物质，这么理解没有任何问题！

所以，关键是要厘清质量与物质的差别：质量不是物质本身，它是物质作为整体静止时拥有的能量的尺度！

只要抓住这一点，你说质量变成能量，能量变成质量，有什么问题呢！不能因为担心别人把质量当成物质本身，就否认质能转换这一事实啊！何况“质量亏损”的意思很清楚，质量不守恒，变成能量了！

光子的质量是零

光子的运动速度是光速，按照相对论动量和能量公式，如果它具有质量，那么它的动量和能量都将是无限大。这是不可能的，所以光子的质量必为零。

但是，问题马上来了，光子没有质量，那么它的动量该如何定义？

同时，由于光子没有质量，质能方程对光子就变成了0=0这种无用形式了。

看来，光子实在太特殊了，接连两个关系式对它都失效了！所以需要寻找一个新的质能关系。

什么？难道还有其他形式的质能方程？

是的！根据动量、能量和静能的表达式，很容易推出

这就是更一般的质能关系式，一般被称为“相对论能量-动量关系”。它适用于一切粒子——无论是否有质量。

对光子来说，该关系式右边第二项为零，但是光子有能量，要使此式成立，光子必然有动量，即因此，光子的能量不是通过质量持有的，而是通过动量获得的。

顺便说一下，根据爱因斯坦的光量子理论，光子是能量为的能量子，其中为普朗克常量，为所对应的光的频率。联立上面二式，光子的动量与它的波长的关系为这两个公式就是爱因斯坦关于光的波粒二象性的数学表示。

基于这种能量子的观点，光子可被简单的看作一份能量，换句话说，当你讨论物质与光子的关系的时候，你也可以说成物质与能量的关系。

和发光一样，热辐射本质上也是电磁波的辐射，也就是放出光子。因此一个放热过程中，质量不断被消耗，变成光子。或者说，质量不断被变成能量。

另一方面，能量也可凝聚成质量，这听起来好像是天方夜谭。但却在地球上时刻发生着，光合作用就是典型的代表。

太阳光携带能量照射到地球上，万物吸收光而孕育、生长。虽然万物体内的原子个数和种类并没有因为光照而改变，但原子之间的相互作用发生了改变，质量增加了，光凝聚为质量。

可见，光的确很特殊，它可以成为质量的坟场，它还是质量的源泉。

不过，质量与能量之间的转换很难涉及实物粒子。如果只是化学反应，所有的原子都是不变的。如果是核反应，反应前后的物质粒子有变，且质量改变远远大于化学反应，但其所占体系总质量的比重依然非常小。

由于聚变反应，太阳每秒有426万吨质量转化成能量辐射到太空。但比起太阳自身质量，这是微不足道的，因为太阳总质量为2000亿亿亿吨。即使加上因为发射太阳风而导致的质量损失——每秒钟150万吨，太阳每年质量减少约181万亿吨，占太阳质量的比重大约只有。

可见，由于能量的吸放所导致的质量盈亏是微不足道的。

因此，你别指望能轻易将一个小粉笔头的质量全部变成能量。反过来，你也别指望能轻易从空无一物的空间中，通过能量聚集生产出实物粒子来。

虽然物理上有真空激发的说法，但那只是由不确定原理导致的一种量子涨落，存在的时间太短而不可观察。真正实现将全部的能量变成质量是很难的，也许宇宙大爆炸是一个例子？

不过说归说，上帝都阻止不了人类科技的进步，说不定已经有所突破了呢！

于是带着疑问搜索了一下最新动态，发现美国的RHIC-STAR国际合作组最新于2021年初发表的一篇论文中报告了首次实现的光生物质的实验，观测证据显示光子碰撞后生成了正负电子对——实现了百分百从纯能量生成物质。

不过，反过来的事情早就已经实现了。实验表明，正反粒子相遇会湮灭成光子，由于光子没有质量，所以这种湮灭过程会导致100%的质量亏损，质量完全变成了虚空的能量。

最后的话

行文至此，关于质能方程，该讲的基本都讲了。

这篇文章与本人最初的想法相去甚远。原本计划按照洛伦兹变换入手，沿传统路线阐述：先证明质速关系，再通过牛顿定律写出力，然后计算做功得到动能，最后得到质能方程。这是大多数物理书的思路。

但是，后来觉得，不讲闵可夫斯基四维时空，好像很难说清洛伦兹变换。而若扯到闵氏几何，那内容又太多了。

并且，后来又意识到，利用质速关系时，不可避免的要使用动质量的概念。而动质量这个概念在本人看来完全多余，早就应该摒弃。

所以后来就干脆采用了最费力的方式——从最小作用量原理切入。但这样一来，就很难避免变分这个问题了。但后来索性就这样讲了，反正变分讲清楚也没什么大不了的，无非看着吓人罢了。只要有一定的微积分基础，理解起来也不难。

但无论如何，可能有不少人觉得不合胃口。但本人觉得，这应该算是最有理有据的理解质能方程的思路之一。虽然有些东西可能本不需要涉及，但作为完整性，讲清楚也不错，免得读者还要去另外翻资料。

你也能真正理解质能方程E=mc²

相关推荐