手机版

第十章 系统抽样(抽样调查理论与方法-北京商学

时间:2025-05-11   来源:未知    
字号:

第十章

系统抽样

众所周知,计算机在抽样过程中起着十分重要的作用。 例如,前面提出利用计算机产生随机数,当然我们知道它产 生的是“伪”随机数。本章所讨论的系统抽样在抽样过程中 选择使用计算机将是十分方便的。 所谓系统抽样,就是将总体中N个单元按照随机方式( 有时也按某种特定的规则)编号为1,2,…,N,若想抽取 n 个样本,不妨假设N/n=k为整数,利用计算机可以立即将 这N个单元排成n 行k 列的矩阵,再从1~k之间随机地产生 一个随机数 i ,则取第 i 列的全体单元作为样本。这种方 法看起来似乎很“机械”,因此有时候也称为“机械抽样” 。然而由于数值“ i ”是随机产生的,那么所得到的样本具 有一定的随机性。

但在实际中,总体的N个单元的编号并非完全随机的, 常常带有一定的规律性,例如按照居住地区、工作性质等等 的编号,有时也常常利用一些个体原有的编号——诸如学生 的学号等。此时,系统抽样的随机性就与最有代表性的简单 随机抽样存在一定的差距。

§1

系统抽样的若干习性

考察N=nk这种最简单的情形,从总体中实施容量为 n 的 系统抽样相当于从k 列中随机地任取一列,显然每一列被选中 的概率是一样的,从而总体中每个单元入样的概率均相等, 这是N=nk时系统抽样的基本习性。

当N nk 时,用上述计算机排列抽样的方法就不能保证 各单元入样的概率相同,因为有些列有 n 个单元,有些列不 足 n 个单元,当列不足 n 时,通常在 YN后再接上 Y1 , Y2 , ,依 原来顺序再排列下去,直到第 n 行填满单元为止,这样任取 的一列恰好保证有 n 个样本。但是,这样产生的后果是增大 了某些单元入样的概率。但当 n 足够大时(例如 n 50), 这时 N n 不为整数所带来的问题并不大,因此,在以后需 要 n 比较大时,我们总是假设 N 是 n 的整数倍。 我们注意到一个有趣的事实:当用计算机将 N 个单元排 成 k 列 n 行时,实际上相当于将总体分为 k 层(或群),系 统抽样相当于从 k 个群中随机地抽出一个群进行整群抽样。 这是最简单的整群抽样!因此,在讨论系统抽样的参数估计 时,很多场合将引用整群抽样的一些现成结果。

系统抽样在实际工作中很受调研工作者的欢迎。首先在 于它的实施方便,同时还能保证样本一定程度的代表性。有 时候使用系统抽样不必重新编制抽样框,尤其是在被调查单 元具有自然顺序排列的时侯,例如流水线上生产的产品每隔 k 个抽查一次,只要第一件受检查产品确定以后,余下的抽 查工作将有条不紊地进行。

比如,对上海地区的车辆进行某种特性的抽样检测就可

以对车辆牌照采用系统抽样,譬如车牌号码尾数为39的车辆 必须到检测所参加测试就是每 100 个单元中抽一个系统抽样如果总体中单元原来的排列呈现一定的规律性甚至周期 性,依赖于这些排列的系统抽样会产生效果很差的可能。系 统抽样的另一个不足之处在于,在实际中被认为行之有效的 系统抽样一般不是严格的概率抽样,估算估计量的方差有较 大困难。

§2

估计量与方差

既然将总体单元排列成 n k 的矩阵,因此总体中各单 元的下标也有所改动以便于讨论与表达,见下表:

112 n

2 i kY12 Y1i Y1k Y22 Y2 i Y2 k

行平均

Y11 Y21

Y1 Y2

Yn1Y 1

Yn 2 Yni YnkY 2 Y i Y k

Yn

列平均

设系统样本为上表中的第 i 列,“ i ”随机等概率确定的 那么总体平均数就用该列的平均数进行估计:

这是只抽一个群的整群抽样估计,因此 y sy 是Y 的无偏估计 其方差为:k k 1 1 k 1 2 2 Var ( ysy ) ( Y Y ) ( Y Y ) i i k k 1 i 1 k i 1

1 n ysy Y i Y ji n j 1

(10.1)

(10.2)

利用

( N 1) S 2 (Y ji Y )2 (Y ji Y i Y i Y )2 (Y ji Y i )2 n (Y i Y )2i 1 j 1 i 1

k

n

k

n

i 1 j 1 k n

i 1 j 1 k

可得

N 1 2 1 k n 2 Var ( ysy ) S ( Y Y ) ji i nk nk i 1 j 1

N 1 2 n 1 2 S S wsy N n

(10.3)

2 其中 S wsy

k n 1 2 ( Y Y ) 表示按列所分的层在 ji i k ( n 1) i 1 j 1

各层内的方差(之和)部分。

(10.3)式告诉我们,系统内(或层内)方差越大, y sy 的方差 就越小;如果划分的层或系统内的差异趋于相当小, Var ( ysy )

N n 2 与容量为 n 的简单随机抽样的方差 Var ( y ) S 比较 Nn n 1 2 2 (10.4) Var ( ysy ) Var ( y ) ( S Swsy ) n

N 1 2 S ,倘若各系统内无差异,则 y sy 的 则趋于极大值 N误差达到最大且与系统内各单元的个数 n 无关,这一点完全 符合直观。相反地,如果系统内的方差总大于总体的方差, 说明我们的系统抽样样本比简单随机样本更具有代表性(在 相同容量下),此时系统抽样的精度优于简单随机抽样的精 度。 在N nk 时,我们已经指出系统抽样实际上是在群的大 小相等情形下的只抽一个群的整群抽样,因此完全可以利用 整群抽样估计量的方差表示式,而在那里我们用到了群内( 或层内、系统内)的相关系数 ,所以可以用相关系数 来表示 Var ( ysy ) 。

例10—1:构造一个虚拟总体(N=25),数据如下表,利用系 统抽样抽取 n=5 的样本估计总体平均

数,现考虑按行以及 按列进行的系统抽样,比较其样本平均数 …… 此处隐藏:3917字,全部文档内容请下载后查看。喜欢就下载吧 ……

第十章 系统抽样(抽样调查理论与方法-北京商学.doc 将本文的Word文档下载到电脑,方便复制、编辑、收藏和打印
    ×
    二维码
    × 游客快捷下载通道(下载后可以自由复制和排版)
    VIP包月下载
    特价:29 元/月 原价:99元
    低至 0.3 元/份 每月下载150
    全站内容免费自由复制
    VIP包月下载
    特价:29 元/月 原价:99元
    低至 0.3 元/份 每月下载150
    全站内容免费自由复制
    注:下载文档有可能出现无法下载或内容有问题,请联系客服协助您处理。
    × 常见问题(客服时间:周一到周五 9:30-18:00)