了解概率分布

数据科学基础上的返回基础知识

Cassie Kozyrkov.

6分钟阅读

测试自己!您可以解释哪些核心统计概念中有多少?

CLT,CDF,分布,估计,预期值,直方图,峰,致峰,致命,平均值,中位数,MGF,模式,时刻,参数,概率,PDF,随机变量,随机变化,偏振,标准偏差,尾部,方差

你的知识有一些差距?阅读!

注意:如果在下面看到一个不熟悉的术语,请按照链接进行解释。

随机变量

随机变量(R.V.)是一个数学函数,使现实变为数字。将其视为规则,以确定在实际活动发生后应在数据集中记录的数字。

随机变量是简化现实的规则。

例如,如果我们对六面骰子的卷感兴趣,我们可能会定义x是将您的粘糊糊的感官体验映射到其中一个数字的随机变量:{1,23,4,5,6}。或者我们只能为奇数/偶数记录{0,1}。这一切都取决于我们如何选择定义我们的R.V.

> Image: SOURCE.

(如果这太技术了,只需将一个随机变量视为指示结果的方式:如果x是关于Die Rolls,x = 4是一种说明我们滚动的方式。如果它没有技术,那么你就没有几乎肯定地爱好措施理论课。)

随机变体

许多学生将随机变体混淆随机变量。如果您是一个休闲读者,跳过这一点,但爱好者注意:随机变体是结果值,如{1,2,3,4,5,6},而随机变量是将现实映射到数字上的函数。在教科书的公式中小x与大x。

可能性

p(x = 4)将用英语阅读为“我的死亡概率与4面朝上的概率。”如果我有一个公平的六面模,p(x = 4)= 1/6。但是……但是……但是……概率是什么,这是1/6来自哪里?很高兴你问!我在这里为您提供了一些概率基础,其中组合抛出作为奖金。

分布

分发是一种表达X可以采用的整个值集的概率的方法。

分发为您提供了样本竞争的图形形式。

概率密度函数(PDF)

召唤分配的最佳方法是完全其真名:其概率密度函数。这样的函数是什么意思?如果我们将X放在X轴上(YUP),那么Y轴上的高度显示每个结果的概率。

> A probability density function gives you popularity contest results for your whole population. It’s basically the population histogram. Horizontal axis: population data values. Vertical axis: relative popularity. To learn more about this graph and the details that I omitted, head over to here.

正如我这里详细说明的那样,分发基本上是一个想象中的理想条形图(用于离散的RV)或直方图(用于连续RV)。*换句话说,分布比X的更可能值更高。所有结果(“离散统一”)的公平模具有相同的高度;不是为了加权死亡。

> Like distributions, you can think of bar charts and histograms as popularity contests. Or tip jars. That works too.

累积密度函数(CDF)

这是概率密度函数的积分**。用英语讲?而不是显示每个x的每个值的可能性,而是显示所有x和下面的累积概率。如果你正在考虑百分比,很棒。百分位数是x轴上的内容,百分比是y轴上的内容。

概率:在六面的死亡中获得3个?1/6调用:获得3或更低?3/6第50百分位为A 3. 3沿X轴进行,50%在Y轴上。

选择您的分布

你如何知道你的x是什么分布?统计员有两种最喜欢的方法。他们(1)从他们的数据估计实证分布 - 使用,你猜到它,直方图! - 或者他们(2)理解假设一个受欢迎的分发目录的成员看起来最类似于他们认为他们的数据源行为的行为。(如果您有数据,请通过假设测试检查这些分销假设是一个很好的想法。)

> The standard approach to choosing a distribution involves plotting a histogram and comparing its shape with the shapes of theoretical distributions in a catalog, such as the list of distributions on Wikipedia, in your textbook, or on the sales page for the distribution plushies above. (And now you get to wonder just how much I’m kidding.) Image: SOURCE.

当我们看看我们的目录时,我们注意到各种分布有名称,如“正常”或“Chi-Squared”或“Cauchy”……这使得学生误认为这些是唯一的选择。他们不是。他们只是着名的。就像人一样,发行可能以错误的原因而闻名。

就像人一样,发行可能以错误的原因而闻名。

在加方面,命名分布包括整洁的PDF和一堆计算为您。

在减号方面,您的应用程序可能不适合目录中的任何内容。感谢实证选择的良好。

参数

这是非常流行分布的概率密度函数,正常分布(A.K.A.Gaussian或Bell形曲线):

让我们说实话 - 洞察力并不完全脱离页面。这就是为什么我们倾向于更喜欢向我们提出关于兴趣的特定参数的问题。在统计数据中,参数总结群体或分布。例如,如果您要求分发峰值为零,则询问其模式的位置(参数)。如果您要询问分发的脂肪是多么胖,您就询问其方差(另一个参数)。在一瞬间,我会带你去参观我最喜欢的一些参数。

但在我们这样做之前,让我回答这个问题:而不是计算摘要措施,为什么我们不只是绘制这个函数并ogle它?我们还没有准备好。

如果您查看上面的函数,您将注意到存在一些希腊字母:μ和σ。***这些是该分布的特殊参数;直到我们用数字替换它们,我们还没准备好绘制任何东西。没有他们,我们所能做的就是了解分布的抽象形状的模糊感,如下所示:

> Image: SOURCE.

想要轴吗?把希腊字母的数字放在哪里。例如,这是你用μ= 0 Vs 5 VS 10和σ= 1:

> Pink μ = 0, Blue μ = 5, Green μ = 10

有更多的希腊语享受,因为其他分布使用其他角色以获得特殊数量。最终,你会厌倦它并开始使用θν,θ2,θν等。

它也值得记住,分布及其参数是涉及对您没有收到所有信息的人口的假设的理论对象,而直方图是更实用的对象 - 您所做的示例数据摘要。如果您将概念与样品和人群保持分开的概念,您将避免充足的混淆,因此它可能值得在这里刷新。

> You can find my explanations here.

现在我们已准备好参加我最喜欢的参数,在第2部分继续。

脚注

*技术上,一个离散的R.v.的函数称为概率质量函数而不是概率密度函数,但如果您称为PMF A PDF,我还没有满足任何关心的人。

**如果您有一个离散的R.V.,那么这是总和而不是积分。

***没有什么特别的关于那个π。这只是我们3月14日庆祝的常规之一。

(本文由闻数起舞翻译自EMMANUEL FOURREY的文章《Getting to know probability distributions》,转载请注明出处,原文链接:https://towardsdatascience.com/getting-to-know-probability-distributions-cc1dd1e2f22b)

(0)

相关推荐

  • 张驰咨询:趣说正态分布(1)-六西格玛管理

    第1篇<一个小P值就能帮你解决客观专业选择供应商的大问题>讲到质管部采用双样本t检验分析两家供应商所供编织袋的拉力均值是否存在差异,一个P值就能解决客观专业选择供应商的问题. 第2篇< ...

  • ​【文末有福利】连续型随机变量及实例详解

    如果随机变量X的所有可能取值不可以逐个列举出来,而是取数轴上某一区间内的任意点,那么称之为连续型随机变量.例如,一批电子元件的寿命.实际中常遇到的测量误差等都是连续型随机变量. >>> ...

  • 深度学习必须掌握的13种概率分布

    仅做学术分享,如有侵权,联系删除 转载于 :深度学习前沿 作为机器学习从业者,你需要知道概率分布相关的知识.这里有一份最常见的基本概率分布教程,大多数和使用 python 库进行深度学习有关. 概率分 ...

  • 高中数学素材:高尔顿钉板和概率分布

    偶然看到一个关于高尔顿钉板的科普视频,视频中小姐姐的声音很好听,人教版选修2-3中关于正态分布就是引用了这个案例,与高尔顿钉板钉子排序类似的是杨辉三角,视频中也有提到,关于高尔顿钉板的案例和正态分布以 ...

  • 116思维模型:正态分布一核心的概率分布

    互联网时代每天产生的数据正在以指数级增长,如何看透数据背后隐藏的秘密和规律,统计学概率论应运而生,很快成为科学的基础工具,渗透到了整个自然科学和社会科学领域. 概率论是研究随机现象数量规律的数学分支, ...

  • 从贝叶斯定理到概率分布:详解概率论基本定义

    转自:机器之心 本文从最基础的概率论到各种概率分布全面梳理了基本的概率知识与概念,这些概念可能会帮助我们了解机器学习或开拓视野.这些概念是数据科学的核心,并经常出现在各种各样的话题上.重温基础知识总是 ...

  • 六分钟内解释所有的概率分布,最重要的概率分布的直观解释

    当我开始学习概率分布时,我感觉有点困难,因为内容很多并且名字都很陌生.现在我意识到,只要抛开它们背后的数学知识,这些概念其实很容易理解.我将从概念上讲一讲我认为最基本的概率分布,而不是数学方面的东西. ...

  • 收藏 | 机器学习领域必知必会的12种概率分布(附Python代码实现)

    转载于:机器之心 AI博士笔记系列推荐 机器学习开发者需要了解的 12 种概率分布,这些你都了解吗? 机器学习有其独特的数学基础,我们用微积分来处理变化无限小的函数,并计算它们的变化:我们使用线性代数 ...

  • 等待中的悖论:概率分布简介

    我必须等多长时间才能上车? 谁不知道这种感觉:您步行去公交车站,等公共汽车,然后-等. 然后您再等一会. 还有更多. 有人告诉您,巴士平均每10分钟一班. 现在您已经等了10分钟. 公共汽车现在不应该 ...

  • 金融数据概率分布

    <我国股票指数收益的正态性分析>,2004年.两种指数的日收益率和周收益率不服从正态分布,而月收益率在一定的阶段表现出正态特性 <上海股票市场收益率正态性分析>,2005年,周 ...

  • 理解周期,就是去构建一个未来的概率分布

    图文来源:点拾投资 作者:长信基金沈佳 01 认识周期:摸清赌场的奖池 对于投资人来说,成功就意味着一件事--做的比一般投资人更好,也就是业绩超过市场平均水平.作者认为我们都是无法预测宏观经济的&qu ...