这个问题问的很好,刚好可以解释为什么回归被叫做回归。
先看带截距项的一般情况吧,不带截距项可以理解为中心化之后再做的回归
首先,模型是y=a+bx+ε,还有一个随机误差项ε,在最小二乘法目标下
最小化误差平方和:
![]()
求导得正则方程:
![]()
![]()
最后的参数和LS估计有如下形式:
![]()
其中:
![]()
以及:
![]()
注意到斜率项bhat可以改写为:
![]()
其中s_x,s_y是样本标准差:
![]()
![]()
所以,如果用x~y进行回归,假设 ![]()
,则有
![]()
倒数是
![]()
发现他们的区别了吗?
- x~y 得到的回归直线:
![]()
,斜率估计 ![]()
- x~y 得到的(逆)回归直线:
![]()
,斜率估计 ![]()
他们的关系是:
![]()
或者说
![]()
计算完了,然后看为什么叫回归
假设(x,y),对于给定的x,y服从图中所示的正态分布。
![]()
该正态分布的中心,E(y|x),在对称轴(虚线)之下
此虚线称之为SD线:方程是 ![]()
x变化时,f(x)=E(y|x)形成回归直线(红线),称之为回归函数:
![]()
相比于虚线,回归直线的斜率乘以了rho,更平缓,在两端有向中心回归的趋势。这就叫回归效应。“回归”是由英国著名生物学家兼统计学家高尔顿(Francis Galton,1822~1911.生物学家达尔文的表弟)在研究人类遗传问题时提出来的。为了研究父代与子代身高的关系,高尔顿搜集了1078对父亲及其儿子的身高数据。他发现这些数据的散点图大致呈直线状态,也就是说,总的趋势是父亲的身高增加时,儿子的身高也倾向于增加。但是,高尔顿对试验数据进行了深入的分析,发现了一个很有趣的现象—回归效应。因为当父亲高于平均身高时,他们的儿子身高比他更高的概率要小于比他更矮的概率;父亲矮于平均身高时,他们的儿子身高比他更矮的概率要小于比他更高的概率。它反映了一个规律,即这两种身高父亲的儿子的身高,有向他们父辈的平均身高回归的趋势。对于这个一般结论的解释是:大自然具有一种约束力,使人类身高的分布相对稳定而不产生两极分化,这就是所谓的回归效应。 ================================
如果说不带截距项的过原点的回归也一样,推算一下:
模型:
![]()
最小二乘:
![]()
求导得到正则方程:
![]()
解得LS估计:
![]()
所以如果用x~y,假设 ![]()
,则:
![]()
可见
![]()
或者说逆回归线的斜率估计:
![]()
二者相比:
![]()
(小于等于1的原因就不用我解释了吧)
|