3.特征预处理:
a) 中位数去极值:设第T期某因子在所有个股上的暴露度序列为D_i,D_M为该序列中位数,D_M1为序列|D_i - D_M|的中位数,则将序列中所有大于D_M+5D_M1的数重设为D_M+5D_M1,将序列中所有小于D_M-5D_M1的数重设为D_M-5D_M1;
b) 缺失值处理:得到新的因子暴露度序列后,将因子暴露度缺失的地方设为中信一级行业相同个股的平均值。
c) 行业市值中性化:将填充缺失值后的因子暴露度对行业哑变量和取对数后的市值做线性回归,取残差作为新的因子暴露度。
d) 标准化:将中性化处理后的因子暴露度序列减去其现在的均值、除以其标准差,得到一个新的近似服从分布的序列。
4.训练集和交叉验证集的合成:
a) 分类问题:在每个月末截面期,选取下月收益排名前30%的股票作为正例(y=1),后30%的股票作为负例(y=0)。将训练样本合并,随机选取90%的样本作为训练集,余下10%的样本作为交叉验证集。
b) 回归问题:直接将样本合并成为样本内数据,同样按90%和10%的比例划分训练集和交叉验证集。