总体均数的估计与假设检验的基本原理
主要内容抽样误差和标准误 t变换和t分布均数的可信区间假设检验的基本原理
统计分析统计描述统计推断–参数估计–假设检验
总体(population)总体:根据研究目的所确定的性质相同的所有观察单位的某种变量值的集合。–如:调查某地1999年正常成年男子的红细胞数,则观察对象是该地1999年正常成年男子,总体就是该地1999年正常成年男子的血红细胞数。
总体分为:–有限总体(finite population):有确定的时间、空间和观察单位数。–无限总体(infinite population):没有确定的时间和空间限制,观察单位数为无限。
样本(sample)样本:从总体中随机抽取的部分观察单位的某个变量值所组成的集合。抽样的目的:用样本信息来推断总体特征,要保证样本的可靠性和代表性,使样本能够充分地反映总体的真实情况。这就要求严格遵循随机化的原则,并保证足够的样本含量。
均数抽样误差由于抽样而造成的样本统计量和总体参数之差称为抽样误差(sampling error)。由于抽样而造成的样本均数和总体均数之差称为均数抽样误差,抽样误差是抽样研究固有的特点,是不可避免的。抽样误差的分布有一定的规律性,并且可以通过一定的方法来估计。
N(μ,σ2)
(μ,σ2)
n
n
xN (μ x,σ )2 x
x
中心极限定理 (Central Limit Theorem)从正态总体N(μ,σ2)中,随机抽取例数为n的样本,样本均数 x也服从正态分布,即使是从偏态总体中抽样,当n足够大时,样本均数的分布仍然服从正态分布,样本均数的均数μ x=μ,标准差为σ x。 n ∑ xi 1 n 1 n i=1 =× E x =× E( x )= 1× (n×μ )=μ Ex=E n n ∑ i n∑ i n i=1 i=1
()
N(μ,σ2)
n样本1
n样本2
n…………
n样本k
x1
x2
xk
x 1 x 2…… x k
x
μ
σx
标准误(standard error)σ x是样本均数的标准差称为均数标准误
(简称标准误),它反映了样本均数与总体均数之间的接近程度,常用以说明均数抽样误差的大小。标准误的计算:σx=σn
n 1 1 n Var ( x)= Var ( i=1 )= 2 × Var (∑ xi )= 2 ×∑ Var ( xi ) n n n i=1 i=1 i
∑x
n
Var( xi )=σ 2
1 1 2 2 2 2σ2 Var( x)= 2×σ+σ+ L+σ= 2× nσ= n n n
(
)
(
)
σx=σ
n
均数标准误在实际工作中,总体标准差σ常是未知的而σ是用样本标准差s来代替σ, x的估计值记作 sx。 sx= s n例:某地成年男子红细胞数的抽样调查, n=144人, x= 5 . 3 8× 1 0 1 2/ L,s=0.44×1012/L,求其标准误。 sx= s= 0.44/ 144= 0.037× 1012/ L n
标准误
的用途标准误是反映样本均数变异程度的指标,常用来表示抽样误差的大小。标准误大反映样本均数抽样误差大,其对总体均数的代表性差;标准误小,样本均数抽样误差就小,其对总体均数的代表性就好。标准误可用于计算总体均数的可信区间,也是进行假设检验的基础。
标准差和标准误的区别标准差意义用途计算描述了个体值之间的变异程度,即观察值间的离散度。标准误反映了抽样误差的大小,即样本均数和总体均数之间的接近程度。
可结合均数估计正常值范围。可用于估计总体参数的可信区间。
Σ( x x) 2 s= n 1
sx=
s n
标准差、标准误与样本含量的关系sx= s n
标准差随着样本量的增多,逐渐趋于稳定。标准误随着样本量的增多而减小,如均数的标准误,当标准差不变时,与样本量的平方根呈反比。当样本含量趋近于总体例数时,则样本标准差趋于稳定,近似等于总体标准差;标准误则趋近于0,抽样误差几乎消失。
标准差、标准误与样本含量的关系例:某年龄段正常成年女性的体重服从 N(51,52)(单位为kg),从该总体中随机抽取例数n为50的样本。x=52.8kg
s= 5.87
s x= 0.830
从总体中随机抽取例数n为300的样本。x=51.5kg
s= 5.76
s x= 0.339