常见的数据分布总结

背景

我们在日常的生活中,会统计很多的数据,而很多的数据,有各种各样的分布,常见的比如正态分布。

此日志重点总结一下常见的分布形式。

具体说明

1. 离散型和连续型随机变量的定义

离散型随机变量:随机变量的所有取值能够一一列举出来,这样的随机变量称为离散型随机变量。例如掷骰子试验,朝上的点数只能从1,2,3,4,5,6中取值。

连续型随机变量:随机变量的取值是某一个区间中的任意一点,这样的随机变量称为连续型随机变量,比如公交车每15分钟一班,某人在站台等车的时间x就是一个连续型随机变量。

2. 离散型随机变量的概率分布

2.1 基本概念及公式

(1)数学期望(均值):试验中每次可能结果的概率乘以其结果的总和。计算公式:

[公式]

(2)方差:描述随机变量的离散程度,即该变量离其期望值的距离。计算公式:

[公式] 

(3)标准差:方差的算术平方根。计算公式:

[公式] 

2.2 伯努利分布

伯努利试验是只有两种可能结果的单次随机试验。伯努利试验都可以表达为“是或否”的问题。例如,抛一次硬币,是否正面向上?

进行一次伯努利试验,成功(X=1)概率为p(0≤p≤1),失败(X=0)概率为1-p,则称随机变量X服从伯努利分布。

[公式]

其中 [公式] 。

伯努利分布的期望 [公式] ,方差 [公式] 。

2.3 二项分布

如果试验E是一个伯努利试验,将E独立重复地进行n次,则称这一串重复的独立试验为n重伯努利试验。二项分布是n重伯努利试验成功次数的离散概率分布。

如果试验E是一个伯努利试验,每次伯努利试验的成功概率为p,X代表成功的次数,则X的概率分布是二项分布,记为X~B(n,p)。

[公式]

二项分布的期望 [公式] ,方差 [公式] .

2.4 几何分布

在n次伯努利试验中,第k次试验才得到第一次成功的概率分布称为几何分布。

[公式]

几何分布的期望 [公式] ,方差 [公式]

2.5 泊松分布

泊松分布描述单位时间/面积内,随机事件发生的次数,比如某一服务设施一定时间内到达的人数,一个月内机器损坏的次数等。

[公式]

参数 [公式] 是单位时间(面积)内随机事件的平均发生率。

泊松分布的期望 [公式] ,方差 [公式] 。

2.6 超几何分布

超几何分布与二项分布相似,二项分布每次试验完全一样,而超几何分布前一次的试验结果会影响后面的试验结果。换言之,二项分布抽取之后放回元素,而超几何分布是无放回的抽取。

[公式]

超几何分布的期望 [公式] ,方差 [公式] .

3. 连续型随机变量的概率分布

概率密度函数用来表示连续型随机变量的概率分布情况,一般是一条光滑的曲线。

3.1 正态分布

正态分布是统计学中常见的一种分布,如学生考试成绩的人数分布等,表现为两边对称,是一种钟形的概率分布。正态分布的概率密度函数为:

[公式]

正态分布的期望 [公式] ,方差 [公式] 。 [公式] 且 [公式] 的正态分布,被称为标准正态分布。它有对应的标准正态分布表,通过该表可以找到对应值累积的概率。

正态分布转化为标准正态分布:正态分布X,均值是 [公式] ,标准差是 [公式] , [公式] 定义为 [公式] 。

正态分布来近似二项分布:当n足够大的时候,正态分布对于离散型二项分布能够很好地近似。

评价正态分布:

(1)图形:建立直方图或者枝干图,看图像的形状是否类似正态曲线,即土墩形或者钟形,并且两端对称。

(2)计算区间 [公式] , [公式] , [公式] ,看落在区间内的百分比是否近似于68%,95%,100%。(切比雪夫法则和经验法则)

(3)求IQR和标准差 [公式] ,计算 [公式] ,如果是正态分布,则 [公式]

(4)建立正态概率图,如果近似正态分布,点会落在一条直线上。

3.2 均匀分布

均匀分布是指连续型随机变量所有可能出现值的出现概率都相同。其概率密度函数为: [公式]

均匀分布的期望 [公式] ,方差 [公式] 。

均匀分布在自然情况下比较少见,而人工栽种的有一定株行距的植物群落即是均匀分布。这表明X落在 [公式] 的子区间内的概率只与子区间长度有关,和子区间位置无关,因此X落在 [公式] 的长度相等的子区间内的可能性是相等的,所谓的均匀指的就是这种等可能性。

3.3 指数分布

指数分布通常用来表示随机事件发生的时间间隔,如旅客进机场的时间间隔、电子产品的寿命分布等。

指数分布的特征:无记忆性。比如灯泡的使用寿命服从指数分布,无论它已经使用了多长时间,假设为s,只要还没有损坏,它能再使用一段时间t的概率与一件新产品使用时间t的概率是一样的。这个证明过程简单表示:

P(s+t| s) = P(s+t , s)/P(s) = F(s+t)/F(s)=P(t).

指数分布的概率密度函数为:

[公式]

指数分布的期望 [公式] ,方差 [公式] 。

3.4 大数定理和中心极限定理

大数定理:随着样本的增加,样本的平均数将接近于总体的平均数。故推断中,一般使用样本平均数估计总体平均数。大数定理讲的是样本均值收敛到总体均值。

中心极限定理:相互独立同分布的事件,具有相同的期望和方差,则事件服从中心极限定理。当样本量足够大时,样本均值的分布慢慢变成正态分布。

备注:以上转自 https://zhuanlan.zhihu.com/p/38224194

自己补充系列:

三大抽样分布

一般是指卡方分布(χ2分布)、t分布和F分布,是来自正态总体的三个常用的分布。

机器学习 2018-08-07
上一篇: 下一篇:

评论已关闭。