抽样方法

抽样

抽样是一种方法,它使我们能够基于子集(样本)的统计信息来获取总体信息,而无需调查所有样本。(样本代表总体)

抽样技术

概率(随机抽样:等概率抽样)

  • 简单随机:比如蒙特卡罗
  • 系统抽样/等距抽样:第一个随机,后续按照固定抽样间隔选取 (简单)
  • 分层抽样:把数据按照特定分组(层),然后每组按比例分别抽样
  • 整群抽样/聚类抽样: 把数据先分成群,然后以群为单位进行抽样

非概率/非随机抽样/不等概率抽样 (不具代表性,简单)

  • 方便抽样又称随意抽样、偶遇抽样
  • 配额抽样(根据特征分组,然后每组单独配额,在配额内,主观判定选择样本 vs 分层抽样)
  • 判断抽样/选择性抽样(专家评定)
  • 雪球抽样(推荐,认识的推荐认识的):舆论研究,社区研究。介于随机抽样和非随机抽样

蓄水池抽样算法(Reservoir Sampling)

问题: 给定一个数据流,数据流长度N很大,且N直到处理完所有数据之前都不可知,请问如何在只遍历一遍数据(O(N))的情况下,能够随机选取出m个不重复的数据。

result: 对于输入的第i个数,在[0, i)产生一个随机数r,如果r在 [0, m) 中,则进行替换,反之不进行操作。这样每个元素被选中留在[0, m) 中的概率为m/n。(n为最后一个数的位置)

分布式蓄水池抽样算法 (Distributed/Parallel Reservoir Sampling)

在单体蓄水池基础上,再进行一次抽样(可以是不放回抽样)