Python实现8种常用抽样方法-编程学习网

短信预约信息系统项目管理师报名、考试、查分时间动态提醒

概率抽样技术

1.随机抽样(Random Sampling)

这也是最简单暴力的一种抽样了，就是直接随机抽取，不考虑任何因素，完全看概率。并且在随机抽样下，总体中的每条样本被选中的概率相等。

比如，现有10000条样本，且各自有序号对应的，假如抽样数量为1000，那我就直接从1-10000的数字中随机抽取1000个，被选中序号所对应的样本就被选出来了。

在Python中，我们可以用random函数随机生成数字。下面就是从100个人中随机选出5个。


import random
population = 100
data = range(population)
print(random.sample(data,5))
> 4, 19, 82, 45, 41

2.分层抽样(Stratified Sampling)

分层抽样其实也是随机抽取，不过要加上一个前提条件了。在分层抽样下，会根据一些共同属性将带抽样样本分组，然后从这些分组中单独再随机抽样。

因此，可以说分层抽样是更精细化的随机抽样，它要保持与总体群体中相同的比例。 比如，机器学习分类标签中的类标签0和1，比例为3:7，为保持原有比例，那就可以分层抽样，按照每个分组单独随机抽样。

Python中我们通过train_test_split设置stratify参数即可完成分层操作。


from sklearn.model_selection import train_test_split

stratified_sample, _ = train_test_split(population, test_size=0.9, stratify=population[['label']])
print (stratified_sample)

3.聚类抽样(Cluster Sampling)

聚类抽样，也叫整群抽样。它的意思是，先将整个总体划分为多个子群体，这些子群体中的每一个都具有与总体相似的特征。也就是说它不对个体进行抽样，而是随机选择整个子群体。

用Python可以先给聚类的群体分配聚类ID，然后随机抽取两个子群体，再找到相对应的样本值即可，如下。


import numpy as np
clusters=5
pop_size = 100
sample_clusters=2
# 间隔为 20, 从 1 到 5 依次分配集群100个样本的聚类 ID，这一步已经假设聚类完成
cluster_ids = np.repeat([range(1,clusters+1)], pop_size/clusters)
# 随机选出两个聚类的 ID
cluster_to_select = random.sample(set(cluster_ids), sample_clusters)
# 提取聚类 ID 对应的样本
indexes = [i for i, x in enumerate(cluster_ids) if x in cluster_to_select]
# 提取样本序号对应的样本值
cluster_associated_elements = [el for idx, el in enumerate(range(1, 101)) if idx in indexes]
print (cluster_associated_elements)

4.系统抽样(Systematic Sampling)

系统抽样是以预定的规则间隔（基本上是固定的和周期性的间隔）从总体中抽样。比如，每 9 个元素抽取一下。一般来说，这种抽样方法往往比普通随机抽样方法更有效。

下图是按顺序对每 9 个元素进行一次采样，然后重复下去。

用Python实现的话可以直接在循环体中设置step即可。


population = 100
step = 5
sample = [element for element in range(1, population, step)]
print (sample)

5.多级采样(Multistage sampling)

在多阶段采样下，我们将多个采样方法一个接一个地连接在一起。比如，在第一阶段，可以使用聚类抽样从总体中选择集群，然后第二阶段再进行随机抽样，从每个集群中选择元素以形成最终集合。

Python代码复用了上面聚类抽样，只是在最后一步再进行随机抽样即可。


import numpy as np
clusters=5
pop_size = 100
sample_clusters=2
sample_size=5
# 间隔为 20, 从 1 到 5 依次分配集群100个样本的聚类 ID，这一步已经假设聚类完成
cluster_ids = np.repeat([range(1,clusters+1)], pop_size/clusters)
# 随机选出两个聚类的 ID
cluster_to_select = random.sample(set(cluster_ids), sample_clusters)
# 提取聚类 ID 对应的样本
indexes = [i for i, x in enumerate(cluster_ids) if x in cluster_to_select]
# 提取样本序号对应的样本值
cluster_associated_elements = [el for idx, el in enumerate(range(1, 101)) if idx in indexes]
# 再从聚类样本里随机抽取样本
print (random.sample(cluster_associated_elements, sample_size))

非概率抽样技术

非概率抽样，毫无疑问就是不考虑概率的方式了，很多情况下是有条件的选择。因此，对于无随机性我们是无法通过统计概率和编程来实现的。这里也介绍3种方法。

1.简单采样(convenience sampling)

简单采样，其实就是研究人员只选择最容易参与和最有机会参与研究的个体。比如下面的图中，蓝点是研究人员，橙色点则是蓝色点附近最容易接近的人群。

2.自愿抽样(Voluntary Sampling)

自愿抽样下，感兴趣的人通常通过填写某种调查表格形式自行参与的。所以，这种情况中，调查的研究人员是没有权利选择任何个体的，全凭群体的自愿报名。比如下图中蓝点是研究人员，橙色的是自愿同意参与研究的个体。

3.雪球抽样(Snowball Sampling)

雪球抽样是说，最终集合是通过其他参与者选择的，即研究人员要求其他已知联系人寻找愿意参与研究的人。比如下图中蓝点是研究人员，橙色的是已知联系人，黄色是是橙色点周围的其它联系人。

总结

以上就是8种常用抽样方法，平时工作中比较常用的还是概率类抽样方法，因为没有随机性我们是无法通过统计学和编程完成自动化操作的。

比如在信贷的风控样本设计时，就需要从样本窗口通过概率进行抽样。因为采样的质量基本就决定了你模型的上限了，所以在抽样时会考虑很多问题，如样本数量、是否有显著性、样本穿越等等。在这时，一个良好的抽样方法是至关重要的。

到此这篇关于Python实现8种常用抽样方法的文章就介绍到这了,更多相关Python 抽样方法内容请搜索编程网以前的文章或继续浏览下面的相关文章希望大家以后多多支持编程网！

文章详情

Python实现8种常用抽样方法

目录

概率抽样技术

1.随机抽样(Random Sampling)

2.分层抽样(Stratified Sampling)

3.聚类抽样(Cluster Sampling)

4.系统抽样(Systematic Sampling)

5.多级采样(Multistage sampling)

非概率抽样技术

1.简单采样(convenience sampling)

2.自愿抽样(Voluntary Sampling)

3.雪球抽样(Snowball Sampling)

总结

软考中级精品资料免费领

相关文章

猜你喜欢

Python实现8种常用抽样方法

python中怎么实现抽样分类方法

python抽样方法解读及实现过程

Python实现抽象基类的3三种方法

Python随机抽样的三种方法及自定义封装函数实现

关于python单例的常用几种实现方法

Python实现排序方法常见的四种

Python实现原神抽卡的方法

python中怎么实现一个抽样回归算法

python实现定时任务的8种方式详解

python常用的各种排序算法原理与实现方法小结

常用Python实现方法有哪些

Python处理缺失值的8种不同方法实例

Mybatis实现批量删除（两种常用方法）

python怎么实现常用的五种排序算法

Android定制RadioButton样式三种实现方法

Python实现"加一"的两种方法

总结三种常见php算法的实现方法

Python实现列表删除重复元素的三种常用方法分析

用python实现零钱找零的三种方法