常见的数据分布总结

背景

我们在日常的生活中,会统计很多的数据,而很多的数据,有各种各样的分布,常见的比如正态分布。

此日志重点总结一下常见的分布形式。数据分为 离散数据与连续数据。

 

具体说明

1.均匀分布

若连续型随机变量X具有概率密度 :


则称X在区间(a,b)上服从均匀分布。记为X~U(a,b)。

 

2.正态分布

Normal distribution,又名高斯分布(Gaussian distribution)。若随机变量X服从一个数学期望为μ、标准方差为σ2的高斯分布,记为:XN(μ,σ2)。则其概率密度函数为:

 

期望值μ:在概率论和统计学中,一个离散性随机变量的期望值(或数学期望、或均值,亦简称期望,物理学中称为期待值)是试验中每次可能的结果乘以其结果概率的总和。

标准差σ:(又称标准偏差、均方差,英语:Standard Deviation,缩写SD),数学符号σ(sigma),在概率统计中最常使用作为测量一组数值的离散程度之用。标准差定义:为方差开算术平方根,反映组内个体间的离散程度。

正态分布的期望值μ决定了其位置,其标准差σ决定了分布的幅度。因其曲线呈钟形,因此人们又经常称之为钟形曲线。我们通常所说的标准正态分布是μ = 0,σ = 1的正态分布。

 

 

3.二项分布

在概率论和统计学中,二项分布是n个独立的是/非试验中成功的次数的离散概率分布,其中每次试验的成功概率为p。这样的单次成功/失败试验又称为伯努利试验。二项分布中,若P称为成功概率,则记作ξ~B(n,p)。
期望:Eξ=np;
方差:Dξ=npq;
其中q=1-p

若某事件概率为p,现重复试验n次,该事件发生k次的概率为:

 

 

 

4、几何分布

先解释一个概念:伯努利试验(Bernoulli experiment)是在同样的条件下重复地、相互独立地进行的一种随机试验,其特点是该随机试验只有两种可能结果:发生或者不发生。我们假设该项试验独立重复地进行了n次,那么就称这一系列重复独立的随机试验为n重伯努利试验,或称为伯努利概型。

几何分布(Geometric distribution)是离散型概率分布。几何分布是帕斯卡分布当r=1时的特例。在伯努利试验中,记每次试验中事件A发生的概率为p,试验进行到事件A出现时停止,此时所进行的试验次数为X,其分布列为:

 

此分布列是几何数列的一般项,因此称X服从几何分布,记为X ~ GE(p) 。

它分两种情况:
(1)为得到1次成功而进行n次伯努利试验,n的概率分布,取值范围为1,2,3,…,这种情况的期望和方差如下:

 

 

 

5.泊松分布

 

4.指数分布

 

三大抽样分布一般是指卡方分布(χ2分布)、t分布和F分布,是来自正态总体的三个常用的分布。

 

机器学习 2018-08-07
上一篇: 下一篇:

评论已关闭。