数据抽样方法总结

背景

从总体样本中,抽一批数据,不管是训练模型,还是查case追问题,还是分析特征,正确的抽样姿势,对得到的结论十分重要,科学合理的抽样姿势,有助于避免我们犯错误。

本文重点介绍数据抽样方法。

具体说明

一、什么是抽样

抽样是一种方法,它使我们能够基于子集(样本)的统计信息来获取总体信息,而无需调查所有样本。

二、为什么抽样

1、省时间

2、省资源

3、分析起来方便,容易突出问题

三、抽样的步骤

1、抽谁:确认总体,明确定义目标群体

2、去哪儿抽:获取群体名单列表范围

3、怎么抽:确认抽取的科学方法

4、抽多少:算清楚抽取样本的量,有代表,能处理

5、开抽:抽取哪些信息,操作,得到结果,验证代表性

四、抽取的科学方法

概率抽样: 在概率抽样中,总体中的每个个体都有相等的被选中的机会。抽取应当是完全客观的,不能依据某个人的主观意志加以选择。

1、简单抽样:简单抽样分为有放回抽样和无放回抽样。无放回抽样:从N个个体中随机抽取n个个体,每次抽取一个个体,且抽取后不再放回。有放回抽样:跟无放回类似,但是每次抽取个体之后,要放回。

2、簇抽样( 整群抽样):先将总体分为多个不相交的簇,然后再抽取一个或多个簇作为样本。簇抽样要求簇内的差异较大,簇之间的差异较小,从而使得簇抽取的样本具有代表性。

3、分层抽样(类型抽样法):从一个可以分成不同子总体(或称为层)的总体中,按规定的比例从不同层中随机抽取样品(个体)的方法。这种方法的优点是,样本的代表性比较好,抽样误差比较小。缺点是抽样手续较简单随机抽样还要繁杂些,运用分层抽样抽取测量样本时,要尽力缩小各层组内的差异,增大层组间的差异;同时层组的划分也不宜过细,以免层组内个体数目过少而无法抽样;再次划分层次的标准必须明确,以免混淆或遗露。

4、系统抽样(机械抽样、等距抽样)):从N个个体中抽取n个个体,做法是先确定k=N/n(对k向上取整),把N个个体分为n段,每段有k个个体,设定一个整数m,1 <= m <= k,在每段中抽取第m个个体,抽取完n段得到n个个体,这n个个体就是抽样的结果。机械抽样的间隔接近评估总体中个体类别分布的间隔时,常常形成周期性的偏差。

非概率抽样:在非概率抽样中,所有元素被选中的机会都不相等。因此,有一个显著的风险,即最终得到一个不具代表性的样本。非随机抽样是根据主客观条件而主观选择样本的方式,又称判断抽样。

1、便利抽样 :纯粹以方便为着眼点的抽样方法,样本之选择只考虑方便与否,所以通常代表性较低,例如在街上随意抽访。

2、配额抽样:根据预先确定的总体特征来选择样本,也称“定额抽样”,是指调查人员将调查总体样本按一定标志分类或分层,确定各类(层)单位的样本数额,在配额内任意(主观)抽选样本的抽样方式。

3、判断抽样:这也称为选择性抽样。在选择要求参加者时,取决于专家判断。

4、雪球抽样:现有的人被要求推荐更多他们认识的人,这样样本的大小就会像滚雪球一样增加。当抽样框架难以识别时,这种采样方法是有效的。

五、结合业务的思考题以及答案

1、某信息流业务,需要抽取一部分feed流的用户,投放 推荐满意度调查问卷,应该如何抽样?

2、某下沉市场巨头,要对不同年龄段的用户,对本产品的接受程度做线下调研,应该如何抽样?

3、某在线教育公司,想调研不同收入的男女家长,对在线教育的接受程度,做电话访谈。

4、某二次元垂类App,想抽样数据分析,大龄男性在B站的消费情况,以及留存差的原因。

资料来源:

百度,新浪爱问,csdn。

机器学习 2020-03-18
上一篇:

评论已关闭。