研究与开发
文章编号:1007-1423(2015)05-0034-07DOI:10.3969/j.issn.1007-1423.2015.05.007
利用SPSS进行判别分析的几个问题的说明
陈敏琼
(中山大学新华学院,广州510520)
摘要:
判别分析是多元统计分析中最常用的方法之一,但由于其原理的复杂性与方法的多样性,使其成为《多元统计分析》课程学习特别是SPSS软件操作学习的难点之一。为此,对判别分析的几种方法的原理进行总结,针对利用SPSS进行判别分析过程中常见的若干疑点,先从理论上做推导说明,结合例子对SPSS判别分析的步骤和输出结果作详细解释和说明。关键词:
判别分析;SPSS判别分析;步骤;解释说明基金项目:
中山大学新华学院2014年院级教改项目(No.2014J001)
0引言
判别分析是根据观测到的样品的若干数量特征
达是什么?
⑤利用SPSS进行Fisher判别时,为何将样品投影后按距离判别,此处距离只要计算欧氏距离而非统计学意义的马氏距离?
针对上述种种疑点下文将逐步给出详细解释说明。
(称为因子或判别变量)对样品进行归类、识别,判断其属性的预报(预测)的一种多元统计分析方法。其基本原理大致为:建立判别函数,给出判别准则,最后将待判样品代入判别函数进行判别。根据建立判别函数的方法的不同,具体可分为距离判别与Bayes判别,Bayes判别法又可分两种:最大后验概率法与最小误判损失法。还有一种先对样品进行投影后再采用距离判别的方法,即Fisher判别法,这三种方法是判别分析最常采用的方法。在SPSS操作中只能实现Bayes判别法与
1判别分析常用的三种方法的原理总结
1.1距离判别
设有k个总体,已知总体Gr的均值向量与协方差阵分别为μr,Σr>O,r=1,2,…,k,对于任意待判样品X,可建立判别函数为:
Fisher判别法两种,并且这两种方法的操作是合在一起进行的,输出结果也比较混乱,据经验归纳,对于初学者来说常会提出以下几点疑问:
gr(X)=d2(X,Gr)=(X-μr)'Σr(X-μr),
(1)r=1,2,…,k
判别准则为:gt(X)=mingr(X),则判样品X∈Gt。
1≤r≤k
-1
①如何利用SPSS完成距离判别?
②SPSS菜单中哪些选项是针对Bayes判别设置的,哪些选项是针对设置的?
特别地,若Σ1=Σ2=…=Σk=Σ,则判别函数可简化为线性函数:
③SPSS输出结果哪些部分是Bayes判别结果,哪些部分是Fisher判别结果?
gr(X)=μr'Σ-1X-μr'Σ-1μr,
2
r=1,2,…,k
1≤r≤k
(2)
④SPSS输出判别函数或投影函数对应的理论表
判别准则为:gt(X)=maxgr(X),则判样品X∈Gt。
趲趦
研究与开发
距离判别法思想很简单,适用条件也很宽松,只须知道各类的均值和协方差阵即可,实际应用中常用样本均值与样本协方差阵来估计。
=
Σμ
r=1
k
r
,B=Σ(μr-)(μr-)',A=kΣ
r=1
k
1.2Bayes判别
此处仅介绍SPSS能操作完成的最大后验概率法:设有k个总体G1,G2,…,Gk,已知这k个总体各自出现的概率(验前概率)为q1,q2,…,qk,各总体有概率密度函数f1(x),f2(x),…,fk(x),则可建立判别函数为样品
B,A分别称为k个总体组间离差阵与组内离差阵,则有结论[1~2]:
设Σ-1B的非零特征根为λ1≥λ2≥…λp>0,对应的单位特征向量分别为l1,l2,…,lp,令:
X=x已知时,它属于Gr的后验概率P(X∈Gr|X=x),即:
gr(x)=P(X∈Gr|X=x)=kqf(x)
rr
j=1
,r=1,2,…,k
l1l2lp
,a2=,…,ap=,则
姨11姨22姨pp
可分别建立第i个投影函数为:
a1=Fi(X)=ai'X=
li'X,姨ii
i=1,2,…,p
(6)
Σqf(x)
(3)
简化后为:
注:由于投影函数的不唯一性,有时为了计算上方便可对投影函数做一些线性变换,如为了将k个总体的总的中心投至原点,投影函数可进一步变换为:
gr(x)=qrfr(x),r=1,2,…,k判别准则为:
gt(X)=maxgr(X),则判别样品X∈Gt。
1≤r≤k
Fi(X)=ai'(X-),质:
性质一:
i=1,2,…,p(7)
若G1,G2,…,Gk分别为p维正态总体,均值与协方差阵分别为μr,Σr>O,r=1,2,…,k,此时判别函数为:
对于(7)式给出的投影表达式易知有以下两点性
gr(x)=qrfr(x)=exp(-1(d2(X,Gr)+ln|Σr|-2lnqr)),
2r=1,2,…,k
进一步可简化为:
gr(x)=d2(X,Gr)+ln|Σr|-2lnqr
1≤r≤k
r=1,2,…,k(4)
li'Σlj
=
姨ii姨jj
0,r=1,2,…,k,i≠j,i,j=1,2,…,p。其中li'Σlj=0是由于
坌X∈Gr,cov(Fi,Fj)=ai'cov(X,X)aj=
li'Σlj=li'Blj=lj'Bli=λilj'Σli=λili'Σlj,即对每一总体
jjjj来说投影后的各指标之间互不相关。
性质二:
判别准则为:gt(x)mingr(x),则判样品X∈Gt。特别地,若Σ1=Σ2=…=Σk=Σ,则判别函数可再简化为线性函数:
gr(x)=μr'Σ-1x-1μr'Σ-1μr+2lnqr,r=1,2,…,k
1≤r≤k
(5)
坌X∈Gr,cov(Fi,Fj)=ai'cov(X,X)ai=l'Σl=1,i=1,
ii
2,…,p,即对每一总体来说投影后的各指标的方差为1。
故对于待判样品X,只须计算其投影后的点到各类总体投 …… 此处隐藏:5355字,全部文档内容请下载后查看。喜欢就下载吧 ……
