第九章 双变量回归与相关用于: 两个变量之间关系的研究。 血糖与胰岛素水平的关系; 年龄与收缩压的关系,等。
本章介绍: 两个数值变量呈直线关系的分析方法; 可用于有序分类变量(等级变量)的秩 相关的非参数统计方法。
第一节 直线回归 一、直线回归的概念
例9-1 某地方病研究所调查了 8名正常儿童的尿肌酐含量 (mmol/24h), 估计尿肌酐含量 (Y)对其年龄(X) 的回归方程。
表9-1 8名正常儿童的年龄X(岁)与尿肌酐含量Y( mmol/24h )
图9-1 8名儿童的年龄与其尿肌酐含量散点图(scatter plot)
在定量描述儿童尿肌酐含量与年龄数量上的 依存关系时, 年龄:自变量(independent variable), X;
尿肌酐含量:应变量(dependent variable), Y。
Y 随 X 增加而增大且呈直线趋势,但并 非8个点子恰好全都在一直线上, 与两 变量间严格的直线函数关系不同, 称为 直线回归(linear regression)/简单回归 (simple regression), 用直线回归方程 (linear regression equation)表示。
直线回归方程:
经验回归方程/样本回归方程 是对两变量总体间线性关系 的一个估计。
根据散点图,假定: 对于X 各个取值, 相应Y 的总体均数 Y |X 在一条直线上(两变量呈直线关系):
图9-2 直线回归的概念示意图
假定:
每个X 对应 Y 的总体为正态分 布,各个正态分布的总体方差 相等且各次观测相互独立。
X 所对应 Y 的总体均数 Y |X 的一个样本估计值,称回归方 程的预测值(predicted value); a、b: 和 的样本估计。
: Y
a: 常数项 (constant term),
是回归直线在Y 轴上的截距(intercept),统计意义: 当 X 取值为 0 时相应 Y 的
均数估计值。
b: 回归系数 (coefficient of regression), 是直线的斜率 (slope),
统计意义:当 X 变化一个单位时 Y 的 平均改变的估计值。
b>0 , 直线从左下方走向右上方, Y 随 X 的增大而增大; b<0 , 直线从左上方走向右下方, Y 随 X 的增大而减小; b=0 , 直线与 X 轴平行,Y 与 X 无直线关系。