回归分析中,x对y回归和y对x回归,也就是交换顺序之后,为什么系数不是倒数的关系?

论坛 期权论坛 期权     
匿名用户1024   2021-5-24 08:55   19666   5
如果y=beta*x
我们估计x=gamma*y
然后用估计出来的gamma计算y=(1/gammahat)*x
为什么这个1/gammahat不等于我们直接估计第一个式子得到的betahat?
分享到 :
0 人收藏

5 个回复

倒序浏览
2#
有关回应  16级独孤 | 2021-5-24 08:55:15 发帖IP地址来自
这个问题问的很好,刚好可以解释为什么回归被叫做回归。
先看带截距项的一般情况吧,不带截距项可以理解为中心化之后再做的回归
首先,模型是y=a+bx+ε,还有一个随机误差项ε,在最小二乘法目标下
最小化误差平方和:

求导得正则方程:




最后的参数和LS估计有如下形式:



其中:

以及:

注意到斜率项bhat可以改写为:

其中s_x,s_y是样本标准差:


所以,如果用x~y进行回归,假设
,则有

倒数是

发现他们的区别了吗?
  • x~y 得到的回归直线:
    ,斜率估计
  • x~y 得到的(逆)回归直线:
    ,斜率估计
他们的关系是:

或者说

计算完了,然后看为什么叫回归
假设(x,y),对于给定的x,y服从图中所示的正态分布。





该正态分布的中心,E(y|x),在对称轴(虚线)之下
此虚线称之为SD线:方程是
x变化时,f(x)=E(y|x)形成回归直线(红线),称之为回归函数:

相比于虚线,回归直线的斜率乘以了rho,更平缓,在两端有向中心回归的趋势。这就叫回归效应。
“回归”是由英国著名生物学家兼统计学家高尔顿(Francis Galton,1822~1911.生物学家达尔文的表弟)在研究人类遗传问题时提出来的。为了研究父代与子代身高的关系,高尔顿搜集了1078对父亲及其儿子的身高数据。他发现这些数据的散点图大致呈直线状态,也就是说,总的趋势是父亲的身高增加时,儿子的身高也倾向于增加。但是,高尔顿对试验数据进行了深入的分析,发现了一个很有趣的现象—回归效应。因为当父亲高于平均身高时,他们的儿子身高比他更高的概率要小于比他更矮的概率;父亲矮于平均身高时,他们的儿子身高比他更矮的概率要小于比他更高的概率。它反映了一个规律,即这两种身高父亲的儿子的身高,有向他们父辈的平均身高回归的趋势。对于这个一般结论的解释是:大自然具有一种约束力,使人类身高的分布相对稳定而不产生两极分化,这就是所谓的回归效应。
================================
如果说不带截距项的过原点的回归也一样,推算一下:
模型:

最小二乘:

求导得到正则方程:

解得LS估计:

所以如果用x~y,假设
,则:

可见

或者说逆回归线的斜率估计:

二者相比:

(小于等于1的原因就不用我解释了吧)
3#
有关回应  16级独孤 | 2021-5-24 08:55:16 发帖IP地址来自
已有的三个回答里有两个是拿带常数项的回归说的……怎么说呢,和楼主问的不是一个事啊,楼主问的是不带常数项的情况,其实比带常数项的更简单。
假定有一个关于x和y的样本,把它们摞向量里分别记为X,Y。
那么用Y对X回归,系数是

它乘上用X对Y回归的系数,是这玩意
由柯西-施瓦茨不等式,这东西小于等于1。除非俩向量方向一样,不然严格小。
=================
卧槽,答完发现这是第300个答案,怒马!
4#
有关回应  16级独孤 | 2021-5-24 08:55:17 发帖IP地址来自
手机打公式不方便。
简单的说就是回归的优化目标,不是点到回归曲线的距离,而是沿着y轴方向的距离(y-y’)^2. 如果沿着对角线反转一下,不一定能继续保证最优。
5#
有关回应  16级独孤 | 2021-5-24 08:55:18 发帖IP地址来自
首先需要明确,在实际问题中,回归分析的自变量和因变量是问题的原因和结果,是不可随意互换的,所以这个问题在某种程度上不具有实际意义。
假设我们不考虑上述关系,问题也需要从两方面考虑:
一:在真实的含有随机扰动项e(随机误差项)的方程中,互换自变量与因变量斜率应互为倒数。

因为模型中存在随机误差项,将庞大而对因变量影响不大的变量们都统一在一起表示,并且由于这些变量们对因变量的影响有正有负亦可相互抵消,使得模型对数据的拟合更加精确。互换x和y即可得到:

因此斜率互为倒数是成立的。

二:在拟合方程中,互换自变量与因变量斜率不一定互为倒数。
在拟合方程中有:

其中x是实际值,而y-hat仅仅是预测值。
同理,互换x和y会得到:

其中x-hat是预测值,y是实际值。
两个拟合方程产生两条不同的拟合直线,分别经过



因此斜率不一定互为倒数。
6#
有关回应  16级独孤 | 2021-5-24 08:55:19 发帖IP地址来自
学经济的人会经常乱换 variable, 基本上不管回归的假设。学统计的人会不厌其烦告诉你, independent variable, dependent varaible, 不能换,不能换,不能换! (重要的事说三遍)。 所有回归的数学证明的依赖于这些假设,破坏了这些假设,理论就成了假理论, 预测就成了假预测。 比如, 用年龄,性别,参加工作时间去预测薪水比较make sense, 但随便换,用参加工作时间去预测性别就不太靠谱了。
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

似水如云一梦身,不知此外更何亲。个中不许容他物,分付黄梅路上人。

积分:136515
帖子:27303
精华:0
期权论坛 期权论坛
发布
内容

下载期权论坛手机APP