等待中的悖论:概率分布简介
我必须等多长时间才能上车?
谁不知道这种感觉:您步行去公交车站,等公共汽车,然后…等。 然后您再等一会。 还有更多。 有人告诉您,巴士平均每10分钟一班。 现在您已经等了10分钟。 公共汽车现在不应该到吗? 还有一个更紧迫的问题:您要等待多长时间?
答案是:持续10分钟。 如果您假设任意两辆公交车到来之间的时间都呈指数分布,则需要10分钟。
这是矛盾的,令人惊讶,但这是事实。 它被称为等待悖论。 这是我最喜欢的数学悖论之一。 我非常喜欢它,以至于在我们在公交车站等车的时候,有时我会随机地把它告诉随机的陌生人。
他们通常认为我疯了。
没关系。
要了解等待悖论,我们首先需要了解概率分布。 什么是概率分布?
(连续)概率分布
随机变量是一个变量,其值不是确定性的,而是取决于随机性。 概率分布是描述此类随机变量X的所有可能值以及该变量可能采用的这些值的概率的函数。
我们通常可以将概率分布分为两类:
离散 和
连续
离散意味着我们的随机变量只能采用有限多个或至少可计数的无限多个值。 在连续的情况下,随机变量可以取无数个无限数量的值。 在大多数情况下,这基本上意味着离散随机变量采用的数字为1、2、3…,而连续随机变量可以为任何实数。
离散随机变量的一个很好的例子是投币或掷骰子,人口规模等。
连续随机变量的一个很好的例子是距离,身体高度,体重等等-基本上,任何可能是任何实数值或实数子集的东西。
在这个故事中,我们将只讨论连续概率分布。
可以使用累积概率分布函数(通常用F(x)表示)来描述(连续)概率分布。 如果F(x)是可微的,即存在该函数F(x)的导数,则该导数称为概率密度函数,并用f(x)表示。
旁注:实际上,F(x)几乎在任何地方都需要可微,但是对于我们将使用的示例,我们可以说F(x)需要可微,而f(x)是F的导数 (X)。
累积分布函数(cdf F(x))
随机变量X(也称为cdf)的累积概率分布函数F(x)= P(X≤x)主要具有两个属性:
它在单调增加
它采用0到1之间的值。
Some examples of cdfs for three very popular probability distributions.
概率密度函数(pdf f(x))
概率密度函数f(x),也称为pdf,主要具有两个属性:
它只需要正值
f(x)与x轴之间的区域为1。
Some examples of pdfs for three very popular probability distributions.
概率分布的pdf不一定存在,而cdf总是存在,即使我们可能不总是能够使用已知的标准函数将其写下来。 一个很好的例子就是正态分布,人们通常会知道著名的钟形曲线,即它的pdf,但是对于cdf,我们通常只写pdf的积分而不是明确地写它。
如果pdf存在,我们可以用它来计算随机变量X的期望值。
期望值E(X)
连续随机变量X的期望值E(X)然后由
期望值的解释是什么?
好吧,这个名称有点让人误解,因为它不是您期望的值,而是如果我们仅经常重复进行一次实验,随机变量将取的平均值! 实际上,我们可能永远也观察不到期望值。
让我举一个例子来理解这一点。 假设我们进行了一个(离散的)实验,其期望值为0.5,即1000次。 如果我们将所有观测值相加并除以1000,它将非常接近我们的期望值0.5。 这是由于一个定理称为大数定律。
例如,假设您扔了一枚硬币1000次。 如果获得正面评价,您将获得1分。 如果是反面,您将获得0分。 随机变量X描述了您扔硬币一次时获得的分数。
如果它是一个公平的硬币,它的期望值是
E(X)= 0.5 * 1 + 0.5 * 0 = 0.5,
使用期望值的真实定义来计算。
另外,在将硬币投入1000次之后,您应该在获得1000次投入后获得500点积分,因此期望值将为500/1000 = 0.5,但这是我们在抛硬币时永远无法达到的值!
指数分布
让我们看一下指数分布。 这是我最喜欢的概率分布。 为什么? 因为它简单,美观且充满惊喜。
参数λ> 0的指数分布的cdf由下式给出
pdf由
然后我们可以通过
Calculating the expected value of E(X) for an exponentially distributed random variable X using integration by parts.
我们还可以为几个不同的参数λ(例如,对于λ= 0.3,λ= 1和λ= 3)绘制pdf,以了解其行为。
等待的悖论
现在让我们回到等待悖论。 我们假设任何两个到达之间的时间是独立的,并且以λ= 0.1分钟呈指数分布。 这意味着两次到达之间的预期时间为
E(X)= 1 /λ= 1 / 0.1 = 10
分钟或平均每10分钟一班。
令X为描述两次到达之间时间的随机变量。
现在,我们说,自从最后一班车到达以来已经过了几分钟。 我们必须再等待t分钟的概率是多少,即两次到达之间的时间为s + t或以数学术语表示的概率是多少?
P(X> s + t | X> s)?
好吧,我们可以计算一下。 答案是,就像我们从未等待过而必须等待t分钟一样,即P(X> t)。
From (I) to (II), we use the definition of the conditional probability. If X is both greater than s+t and greater than s, it simplifies to X being greater to s+t since both s and t are positive (III). We then use P(X >s)=1-(P ≤ s) in (IV), so we can use the cumulative distribution function (V). We then insert the distribution function of the exponential distribution (VI) and simplify (VII). We then do steps (III)-(VI) backward.
起初这很矛盾,令人惊讶!
这个属性也是为什么无论我们什么时候到达公交车站,如果公共汽车平均每10分钟一班,我们仍然不得不再等十分钟(至少平均)。 为了使这一点更加明显,我们还可以在X大于s的情况下计算X的条件期望值,即在已经等待s分钟的情况下计算期望的总等待时间。
然后举行
E(X | X> s)= E(X)+ s。
再次,解释是相同的,无论我们已经等待了多少时间,我们仍然有望再等待1 /λ分钟。
计算起来有些棘手,所以可以跳过这一部分(如果您有兴趣,可以放纵一下)。
我们要计算
其中带有双线的1是所谓的指标函数。 为此,我们首先计算提名者。
In line 1, we use the fact that the indicator function is 1 on the given interval and 0, else. We then solve the integral by integration by parts and simplify the equation.
然后我们得到期望的结果
From line 1 to line 2, we use the result from the above calculation. We then simplify and use that the expected value of X is 1/λ.
就是如此
为什么Waiting-Paradox仅适用于指数分布?
由于矩阵呈指数分布,因此'等待悖论'起作用。 实际上,指数分布是唯一适用的连续分布。
对于所有其他发行版,它将不起作用。 有一个直观的解释。 使用指数分布,任意两个到达之间的时间不是均匀分布,而是指数分布。 这意味着有时两次到达之间的时间可能很大,但通常会非常小。
因此,更有可能我们陷入了漫长的等待期而不是短暂的等待期。
例如,如果我们生活在一个理想的世界中,公交车每10分钟到达一次(即不再有随机性),而我们到达的时间是随机的,即在最后一辆公交车到达后的0到10分钟之间均匀分布,那么我们 平均会等待5分钟。
Pdf of the uniform distribution between 0 and 10 with expected value of 5.
这是因为任意两个到达点之间的距离均匀。 如果我们随机地到达公交车站,那么赶上一个很大的等待间隙的机会就会相对较小。 而且,与指数分布相比,两辆公交车紧挨着到达的机会要小得多。
但是,等等,现实生活如何?
这是数学,谁在乎现实生活中真正发生的事情? 好吧,我只是在开玩笑。 当然,当公共汽车按时间表到达(或多或少)时,我们当然不能假设两次到达之间的时间呈指数分布。 在理想的情况下,公交车可以按计划到达。
但是,在我的故乡柏林,假设指数分布可能并不遥远。 因为有时我到达公交车站,所以我等了10分钟。 然后,同一条线上的三辆公交车紧接着又到达。 这些时刻使我相信,在对这个问题建模时,指数分布可能不是最差的选择。
下次您等在公共汽车站等闲聊时,这里有个故事要讲。
(本文翻译自Maike Elisa的文章《The Waiting Paradox: An Intro to Probability Distributions》,参考:https://medium.com/cantors-paradise/the-waiting-paradox-an-intro-to-probability-distributions-97c0aedb8c1)