上一篇中,我们对 257 个因子进行了批量测试。
最后用 IC 指标来评价因子的选股效果,期望从中挑选出历史表现优秀的因子。
但是仅仅依靠 IC 指标,真的就能很好地做到揭示各个因子之间的优劣程度吗?
IC 究竟代表着什么,使用过程中存在着哪些局限,什么才是它正确的打开方式?
结合前文的因子数据,本文会对部分因子的选股效果做出更深入的分析,试图解决这些困惑。 信息系数
IC 即信息系数(information correlation),是评价因子在截面上选股效果的常用方法,通常定义为股票第 t 期的因子暴露与 t+1 期对应收益的相关系数。
而相关系数是量化相关性分析中两个变量之间线性关系强度的测定,取值介于 -1 和 1 之间,绝对值越接近于 0,则线性关系越弱。
具体的计算过程就不啰嗦了,这部分网上有很多的公开资料,我只写一写自己对为什么要用 IC 以及该怎么用好 IC 的理解。
首先,我们在进行因子投资的过程中,其实已经假定了在截面上因子暴露与远期收益之间存在线性关系。
而 IC 正是用于反映因子值与股票收益的线性相关性,这里暂不考虑非线性部分。
这部分的背景说明推荐阅读石川老师写的《统一视角下的因子投资》,以下引用一幅我很喜欢的图:
通过计算 IC 来评价该线性相关程度,如果是正相关,那么当期因子值越大,下期收益率越高,选股效果越好。
这也很好理解,但是在实践过程中,我们很容易忽视了数字背后的内在逻辑,从而走进误区。
第一点,相关系数很容易受离群值影响。
以下图为例,右图只是多一个离群值,但是变量间的相关系数却大大增加。
所以进行因子效果评价之前,通常我们都需要对因子值进行去极值的处理,避免极端值对后续计算造成影响。
第二点,非线性关系也可能呈现出“优秀”的相关系数值,在石川老师的《用 IC 评价因子效果靠谱吗?》一文中就有很好的例子。
别看四幅图片长相各异,但是变量间的相关系数值却是完全相同。
这说明 IC 并不能反映出数据的全部信息,所以当我们看到某个因子亮眼的 IC 评价时,最好再结合分组收益看看它的单调性情况。 实证分析
Part1
首先来看看上篇文章中名列前茅的两个因子的分层收益情况:
第一个登场的是 市值调整换手率 因子!
不得不说,第一眼就被它扶摇直上的多空收益率吸引了,这批因子里目前就属它最突出了。
如果只看 IC 和 IR 的话,另一个与它相近的就是 特异度波动率 了: