如上所示,将待检验的因子X_New作为因变量,待剔除的因子作为自变量进行回归,由于残差项与自变量之间互不相关,因此将残差项作为新因子的代理变量,可以认为已经消除了行业、市值、动量和波动的影响。
2) 分层法
分层法通常用于剔除单个因子对目标因子的影响,其主要步骤如下:
a) 根据待剔除因子(如Size)的大小将样本股票分为10层;
b) 在每层中再根据待检测因子X_New将股票分为10组;
c) 每层中的第1组-第10组进行合并,得到新的10个分组。
其中,Ω 是样本协方差矩阵,它是总体协方差矩阵的无偏估计量。Gibbons,Ross和Shanken(1989)证明该检验统计量服从自由度为(N,T-N-K)的F分布,因此我们可以通过计算上述GRS检验统计量结合F分布的性质,来判断是否接受或者拒绝原假设。若GRS检验统计量很大(如超过95%置信区间),则需要拒绝原假设,也即说明该因子是一个有效的定价因子。
需要说明的是,目前为止我们都认为回归残差之间不存在自相关和异方差性,如果这一条件不满足,我们估计得到的残差协方差矩阵就不再是无偏和一致的,因此需要用Newey-West或者GMM方法进行调整,此处不做过多展开。
6) Fama-Macbeth检验
在前面提到的Spanning Test和GRS检验中,我们均是将组合的月度收益率对已知因子的月度收益率进行时间序列回归,观察截距项的显著性,而在Fama和Macbeth(1993)提出的Fama-Macbeth回归法中,则是通过结合时间序列回归和横截面回归,采用如下的两步回归法来对因子有效性进行检验的。
具体来讲:
a) 时间序列回归:在某个月月末,将每一只股票的历史收益率对已知因子的收益率进行时间序列回归,计算得到相应的回归系数
在上面的回归中,自变量因子既可以是已知因子的收益(如SMB、MKT、HML等),也可以是一些宏观经济指标(如CPI、M2、GDP等),但我们认为在对每只股票进行时间序列回归时,这些自变量的取值需要保持一致,因为回归的目的是要得到不同的股票在这些因子上的暴露程度。也就是说,如果想要衡量市值、BP等因子对股票收益的影响,我们回归时并不是将股票收益对市值因子本身和BP因子本身进行回归,而是将股票收益对SMB和HML的收益序列进行回归。这是因为每只股票的市值因子和BP因子都是不相同的,如果直接将个股收益对因子值本身进行时间序列回归,将得到的回归系数被认为是该因子的预期收益的话,那么对于不同股票进行回归得到因子的预期收益却并不相同,这一点与我们的预想并不一致,因为这种情况下股票所暴露的因子值和因子的收益都不相同,无法进行比较。相较之下,由于每个时期所有股票所暴露的宏观环境是一致的,因此可以直接将宏观指标的因子值本身作为回归变量,这样回归得到的系数就代表了每只股票对宏观经济指标变化的敏感性。
b) 横截面回归:在经过时间序列回归得到每只股票在单个因子上的暴露度之后,接下来就是进行横截面回归,观察不同的因子暴露度对股票收益的影响,这一点与前面提到的纯因子组合法十分类似。具体来讲:
其中,〖Corr〗_t^AB是指在t期所有股票的A、B因子之间的相关系数,〖RSI〗_AB指标实际上衡量的是因子相关系数的稳定性。需要注意的是,为了避免极端异常值对相关系数的影响,此处我们建议对因子进行标准化后再计算相关系数,或者在指标构建时采用因子的秩相关系数作为代替。
因子相关性检验的第二种方法是分组法,首先在每个截面期根据目标因子从小到大分成10组,随后计算每组股票在其他已知因子上的加权平均,最终计算每个组合在回测区间内的均值,观察10个组合在已知因子上的暴露度是否存在单调性。同样的,为了避免因子值的较大变化所带来的影响或者为了方便不同的因子之间可以进行比较,我们也可采用打分法或对因子预先进行标准化处理。具体来讲,可分为如下几种方式:
a) 在每个截面期上,直接计算每个组别在原始因子上的加权平均,随后计算每个组别在时间序列上的均值;
b) 在每个截面期上,先将所有股票的因子值进行标准化,随后计算每个组别在标准化后因子上的加权平均,最后计算各组时间序列均值;
c) 在每个截面期上,先将因子值转换成排序值,随后计算每组在排序值上的加权平均,再根据加权平均打分,最后计算各组得分时间序列均值;
如果各个组别在其他已知因子上的排序存在明显的单调性,则说明目标因子与其他因子之间存在强相关性,我们需要考虑对其进行正交化处理,从而剔除已知因子的影响。 3) 因子稳定性 因子的稳定性也是我们关注的重要指标,如果因子在相邻两期中的变化十分剧烈,那么根据该因子构造的组合换手率将会非常高,这将为因子的实际应用造成较大的困扰。我们采用自稳定相关系数ρ_kt对因子稳定性进行衡量,其计算方法如下: