不要再问统计学了!
大家好,我是宝器!
昨天在知乎看到一个问题:从零开始学数据分析,什么程度可以找工作,如何计划学习方案?
提问者背景是:在coursera 上面学data science 中的R programming,本硕均为化学工程,过去很少接触过 统计、计算机 这两个学科,现在很想转行做数据。具体问题如下:
1.data需要学到什么程度可以找工作,该怎么学?
2.初级的数据分析会做哪些工作?
3.数据分析有什么小方向吗?
4.想要深度做数据分析有怎样的建议
5.统计的学习应该从哪里下手
1-5这几个问题在文末的阅读原文链接有宝器在知乎的回答,有疑问的小伙伴可以去看下。
关于第5点统计学,昨天正好在Github上看到一个MD写的笔记,内容很细,分享给大家。
统计学分类
描述统计 描述统计是通过图表或数学方法,对数据资料进行整理、分析,并对数据的分布状态、数字特征和随机变量之间关系进行估计和描述的方法。 推论统计 总体参数估计 假设检验 推论统计是借助抽样调查,从局部推断总体,以对不肯定的事物做出决策的一种统计。
基本概念
均值:求平均值 中位数:有序序列的中间值(个数为偶数时求中间两位平均字值) 众数:次数出现最多元素为众数 总体均值:μ = 样本均值: = 总体方差: = 简化公式 = 样本方差: = 样本方差是来估计总体方差,由此有无偏样总体方差 无偏样总体方差, = 总体标准差: = 样本标准差 = 随机变量:跟传统变量不是一个概念(连续随机变量,离散随机变量) 随机过程映射到数值的函数 数值是随机的 概率分布函数:描述离散随机变量的概率 概率密度函数:描述连续随机变量的概率 期望值: = p(x) 为该随机变量的概率值 期望值就是该随机变量总体的均值 当要计算总体的均值(μ)时候,总体数据量大(无穷),又知道该随机变量概率函数,就可以计算期望值,得到总体均值
二项分布
概念
在每次试验中只有两种可能的结果,而且是互相对立的; 每次实验是独立的,与其它各次试验结果无关; 每次发生的概率不变;
概率公式
=
二项分布期望值
= n 为实验次数 p 为事件概率 期望值可以看成最可能得到的那个结果
泊松分布
概率密度函数
= 为期望值 来源于二项分布,当二项分布的n很大而p很小时,泊松分布可作为二项分布的近似,其中λ为np 概率密度函数有二项分布概率密度函数求极限推出,
大数定律
随机变量的N次观察, 将所有观测值平均起来, 得到样本平均值,当实验次数足够多或趋于无穷,样本的平均值会趋近于随机变量的期望值 =
正态分布
重复多次独立事件,取平均值为新的随机变量, 新的随机变量的新的概率密度函数符合正态分布 二项分布实验次数足够多会趋近于正态分布
概率密度函数
= 标准正态分布概率密度函数 当 =
分数就是离均值有多少个标准差远
经验法则
68 - 95 - 99.7 一个标准差范围的经验概率为 68% 两个标准差范围的经验概率为 95% 三个标准范围的经验概率为 99.7%
中心极限定理
概念
任意具有良好的均值和方差的分布,不管分布具体是什么样子,抽取n个样本值(独立重复事件)为一组样本, 样本均值的频率图很接近正态分布。
随着样本容量n增加,样本均值的频率图无限接近正态分布; 抽样分布与原始分布拥有同样的均值, 任何一个样本均值将会约等于其所在总体均值。 抽样分布方差为原始分布方差的1/n(n 为样本容量)
* $\sigma_x^2 = \frac{\sigma^2}{n}$
应用
在没有办法得到总体全部数据的情况下,我们可以用样本来估计总体 根据总体的平均值和标准差,判断某个样本是否属于总体
伯努利分布
概念
伯努利分布亦称“零一分布”、“两点分布”。称随机变量X有伯努利分布, 参数为p(0<p<1),如果它分别以概率p和1-p取1和0为值。
特征
期望 = 概率p, 方差,
置信空间
概念
置信区间是指由样本统计量所构造的总体参数的估计区间。
求解置信空间
求一个样本的均值, 用样本均值求 -- 估计无偏样总体标准差, 用估计标准差,得出抽样分布标准差, 用z分数求出,置信空间 抽取更大的样本可以缩小置信空间
总结
已知样本均值,不知道抽样分布均值, 能通过样本标准差来估计整体均值落在样本均值一定范围内的概率,这个概率称为置信空间。
假设检验
概念
假设检验假是是推论统计中用于检验统计假设的一种方法,根据样本统计量来检验对总体参数的先验假设是否成立。
零假设 一般是证明是错误的假设,如果统计量计算值为小概率事件,否定零假设。 备择假设 单样检测 是指当要检验的是样本所取自的总体的参数值大于或小于某个特定值。 双样检测 只关心两个总体参数之间是否有差异。 p值 一种概率,一种在原假设为真的前提下出现观察样本以及更极端情况的概率。 为有统计学差异 为有显著统计学差异 为有极其显著的统计学差异 t统计量 为样本标准差 当总体分布是正态分布,总体标准差未知且样本容量小于30,那么样本平均数与总体平均数的离差统计量呈t分布。 随机变量之差的方差 平均值 方差
线性回归
平方误差
理解为 m = 协方差 / x的方差 偏导,求最小值 m = m = 总离差平方和: 残差平方和: 回归平方和: 判断 回归方程 拟合的程度,拟合优度越大,自变量对因变量的解释程度越高,自变量引起的变动占总变动的百分比高 在Y的总平方和中,由X引起的平方和所占的比例
协方差
协方差是在概率论和统计学中用于衡量两个变量的总体误差,而方差是协方差的一种特效情况,即当两个变量是相同的情况。
数学公式
若n个相互独立的随机变量ξ₁,ξ₂,...,ξn ,均服从标准正态分布(也称独立同分布于标准正态分布),则这n个服从标准正态分布的随机变量的平方和构成一新的随机变量,其分布规律称为卡方分布。
统计量数学公式 正态总体中抽取出的样本的方差服从 分布
卡方分布检验
卡方检验就是统计样本的实际观测值与理论推断值之间的偏离程度,实际观测值与理论推断值之间的偏离程度就决定卡方值的大小,如果卡方值越大,二者偏差程度越大;反之,二者偏差越小;若两个值完全相等时,卡方值就为0,表明理论值完全符合。
步骤 假设原假设 计算自由度 计算统计量 查看临界值
方差分析
用于两个及两个以上样本均数差别的显著性检验。由于各种因素的影响,研究所得的数据呈现波动状。造成波动的原因可分成两类,一是不可控的随机因素,另一是研究中施加的对结果形成影响的可控因素。
总平方和, 自由度 = 组内平方和, 自由度 = 组间平方和, 自由度 =
F 分布统计值
如果分子大于分母,说明波动大多数来自各组之间 如果值很大,则零假设的概率较低
笔记地址:
https://github.com/newyoung21/Statistics-notes