置信度与置信区间

背景

在平时做实验的过程中,使用ab平台去分配流量,大家其实对分配多少流量"合适",并没有谱。一般都是靠经验拍一个值,特此整理一下,如何知道,我的流量够不够。

在统计学里, 我们一般使用"抽样" 来预估 "总体"的情况。做这个事情,可行的前提是: 抽样样本能够很好的拟合总体的情况。即我们通常说的具有代表性。统计学里用 置信度 ,来衡量 样本实验与总体用户的"相似情况"。

 

 

具体描述

1、为什么要用区间估计?

一个例子:你打枪打10次,你可以得到一个平均值,比如是8.那么总体的期望是不是就是8呢?显然不是,因为你再打10次可能就是7了,那么总体的期望就变成7了嘛?
总体的期望是客观存在不会变的,既然样本是从总体中抽出来的,那么样本的均值和总体的期望应该差的不远。

你射击的均值是8,总体的期望总不能是1吧?所以,你若换句话说打枪的平均环数是[6,8],那么相信的人就会很多了。可见,虽然扩大了总体均值的取值范围,但是可信度明显高了。
当然你不能简单无限度扩大区间范围,毕竟统计也要讲究一定的精度。所以咱就有了置信度,也就是说,你测得的均值,和总体真实情况的差距小于这个给定的值的概率,说你测得的均值就是总体期望是很草率的,但是说,我有95%的把握认为我测得的均值,非常接近总体的期望了,听起来就靠谱的多。

2、平时我们常说的95%置信度到底是什么意思呢?

要理解置信度,就要理解好置信区间。要理解置信区间,就要从统计学最基本最核心的思想去思考,那就是用样本估计总体。在统计学中,非常容易把概念模糊化,很容易把95%置信区间理解成为在这个区间内有95%的概率包含真值。
但是这里有两个容易混淆的地方
1.真值指得是样本参数还是总体参数?这个问题的答案是总体参数,我们取的数据是样本数据,点估计是样本参数的真实值,我们要估计总体参数
2.95%的概率,变动的是谁?这里95%的概率,变动的是置信区间

错误理解:假如有100个考生,100个学生中有95个考分落在(70,80)这个区间内。这就是95%置信度。
这是非常错误的理解,样本与总体的关系没有思考清楚。置信区间是估测总体参数的真值,这个值只有一个,且不会变动。
那正确的应该怎么理解呢?
样本数目不变的情况下,做一百次试验,有95个置信区间包含了总体真值。置信度为95%。换言之,若扩大样本容量,考100次试,这100名学生的成绩组成改的区间有95次包含了总体真正的均值,那这才是95%置信度。说白了,我们有95%的把握说总体的真值在这个区间内。

 

 

 

参考内容:

https://wenku.baidu.com/view/c7bb8fb6f121dd36a32d82ad.html

http://bbs.pinggu.org/thread-3037010-1-1.html

http://blog.csdn.net/cn_rigel/article/details/8393121

机器学习 2017-12-04
上一篇: 下一篇:

评论已关闭。