【华泰金工林晓明团队】中证500增强样本外超额3.41%——人工智能选股周报20190427

摘要
XGBoost中证500样本外超额3.41%
自2019年3月23日开始，本周报对XGBoost中证500增强模型进行深度跟踪，目前样本外超额收益为3.41%。2011年回测以来，该模型年化超额收益率为17.79%，超额收益最大回撤为5.06%，信息比率为3.34。2019年以来获得绝对收益32.34%，超额收益2.59%。上周模型获得绝对收益-6.32%，超额收益0.60%。

上周全A选股（沪深300行业市值中性）随机森林表现最好
上周沪深300涨跌幅为-5.61%。上周3个模型跑赢基准，超额收益最高的模型是随机森林，该模型上周获得绝对收益-5.18%，超额收益0.43%。最近一月超额收益最高的模型是XGBoost，该模型最近一月获得绝对收益6.49%，超额收益1.39%。2018年以来超额收益最高的模型是XGBoost，该模型2018年以来获得绝对收益1.61%，超额收益6.46%。2018年以来RankIC均值最高的模型是朴素贝叶斯，该模型RankIC均值为0.109。

上周全A选股（中证500行业市值中性）SVM表现最好
上周中证500涨跌幅为-6.92%。上周6个模型跑赢基准，超额收益最高的模型是SVM，该模型上周获得绝对收益-5.40%，超额收益1.52%。最近一月超额收益最高的模型是XGBoost，该模型最近一月获得绝对收益3.42%，超额收益3.18%。2018年以来超额收益最高的模型是Stacking，该模型2018年以来获得绝对收益0.64%，超额收益15.23%。2018年以来RankIC均值最高的模型是朴素贝叶斯，该模型RankIC均值为0.109。

上周沪深300指数内选股神经网络表现最好
上周沪深300涨跌幅为-5.61%。上周1个模型跑赢基准，超额收益最高的模型是神经网络，该模型上周获得绝对收益-5.38%，超额收益0.24%。最近一月超额收益最高的模型是随机森林，该模型最近一月获得绝对收益5.86%，超额收益0.76%。2018年以来超额收益最高的模型是XGBoost，该模型2018年以来获得绝对收益2.24%，超额收益7.09%。2018年以来RankIC均值最高的模型是随机森林，该模型RankIC均值为0.055。

上周中证500指数内选股随机森林表现最好
上周中证500涨跌幅为-6.92%。上周5个模型跑赢基准，超额收益最高的模型是随机森林，该模型上周获得绝对收益-5.78%，超额收益1.14%。最近一月超额收益最高的模型是XGBoost，该模型最近一月获得绝对收益1.72%，超额收益1.48%。2018年以来超额收益最高的模型是朴素贝叶斯，该模型2018年以来获得绝对收益-5.16%，超额收益9.43%。2018年以来RankIC均值最高的模型是朴素贝叶斯，该模型RankIC均值为0.083。

上周中证800指数内选股随机森林表现最好
上周中证800涨跌幅为-5.94%。上周1个模型跑赢基准，超额收益最高的模型是随机森林，该模型上周获得绝对收益-5.31%，超额收益0.63%。最近一月超额收益最高的模型是XGBoost，该模型最近一月获得绝对收益5.06%，超额收益1.18%。2018年以来超额收益最高的模型是随机森林，该模型2018年以来获得绝对收益1.85%，超额收益9.22%。2018年以来RankIC均值最高的模型是朴素贝叶斯，该模型RankIC均值为0.07。

风险提示：通过人工智能模型构建选股策略是历史经验的总结，存在失效的可能。人工智能模型可解释程度较低，使用须谨慎。

华泰人工智能选股策略简介
华泰金工人工智能选股系列报告将多种机器学习算法应用到多因子选股中，目的是利用机器学习算法的非线性特性和自动学习能力，从传统的多因子数据中挖掘出能带来更高超额收益的非线性特征。本周报中，我们跟踪了Stacking、SVM、朴素贝叶斯、随机森林、XGBoost、逻辑回归、神经网络7个模型在月频多因子选股的表现。对于每一种模型，我们构建了以下5种多因子选股模型，进行定期跟踪（对于Stacking模型，目前只应用于全A选股，后续会对其应用于指数内选股进行研究）。

1. 全A选股（沪深300行业市值中性）：月频调仓，在全部A股中选股，组合构建时相对于沪深300指数进行行业中性和市值中性。
2. 全A选股（中证500行业市值中性）：月频调仓，在全部A股中选股，组合构建时相对于中证500指数进行行业中性和市值中性。
3. 沪深300指数内选股：月频调仓，在沪深300指数成分股中选股，组合构建时相对于沪深300指数进行行业中性和市值中性。
4. 中证500指数内选股：月频调仓，在中证500指数成分股中选股，组合构建时相对于中证500指数进行行业中性和市值中性。
5. 中证800指数内选股：月频调仓，在中证800指数成分股中选股，组合构建时相对于中证800指数进行行业中性和市值中性。

对于所有跟踪的模型，使用如下统一回测条件：
1. 股票池处理：剔除ST、停牌、上市3个月以内的股票。
2. 特征提取：70个因子作为特征（估值、成长、动量翻转、波动率、换手率、情绪、技术、市值等）。对原始因子做中位数去极值，缺失值填充（行业平均），行业市值中性，标准化。
交易费用：单边千分之二。

XGBoost中证500增强模型近期表现
本章对XGBoost中证500增强模型进行深度跟踪，展示更多模型相关细节。该模型使用XGBoost模型对全A股票进行打分，并通过组合优化构建中证500增强组合，每半个月调仓一次。

XGBoost中证500增强模型近期表现
我们关注XGBoost在大金融、周期、成长、消费4个板块上的绝对收益和超额收益表现。四大板块构成如图表1所示。对于每一个板块来说，计算该板块内中信一级行业指数收益率的平均作为该板块的收益率。

XGBoost中证500增强模型详细回测信息
XGBoost模型自2011年以来的详细回测信息如图表4~图表6所示，目前样本外超额收益为3.41%。

XGBoost中证500增强模型各板块持仓情况
图表7~图表10展示了模型在四大板块上的前十大持仓情况，并展示每只股票的估值、盈利能力、成长性、动量、波动率、换手率打分。打分规则如下：

1. 估值：计算个股在同行业内的PB排序，得分为10表示个股的PB排在行业内的0%~10%的位置（PB最低），得分为1表示个股的PB排在行业内的90%~100%的位置（PB最高）。

2. 盈利能力：计算个股在同行业内的ROE排序，得分为10表示个股的ROE排在行业内的90%~100%的位置（ROE最高），得分为1表示个股的ROE排在行业内的0%~10%的位置（ROE最低）。

3. 成长性：计算个股在同行业内的ROE同比增长率排序，得分为10表示个股的ROE同比增长率排在行业内的90%~100%的位置（ROE同比增长率最高），得分为1表示个股的ROE同比增长率排在行业内的0%~10%的位置（ROE同比增长率最低）。

4. 动量：计算个股在同行业内的最近一个月涨跌幅排序，得分为10表示个股的最近一个月涨跌幅排在行业内的0%~10%的位置（最近一个月涨跌幅最低），得分为1表示个股的最近一个月涨跌幅排在行业内的90%~100%的位置（最近一个月涨跌幅最高）。

5. 波动率：计算个股在同行业内的最近一个月波动率排序，得分为10表示个股的最近一个月波动率排在行业内的0%~10%的位置（最近一个月波动率最低），得分为1表示个股的最近一个月波动率排在行业内的90%~100%的位置（最近一个月波动率最高）。

6. 换手率：计算个股在同行业内的最近一个月换手率排序，得分为10表示个股的最近一个月换手率排在行业内的0%~10%的位置（最近一个月换手率最低），得分为1表示个股的最近一个月换手率排在行业内的90%~100%的位置（最近一个月换手率最高）。

图表7~图表10展示了还展示了个股调仓以来相对板块指数超额收益，上次调仓以来，大金融板块指数收益为0.54%，周期板块指数收益为-0.7%，成长板块指数收益为-0.57%，消费板块指数收益为3.18%。

其他模型跟踪
本章展示的模型为月频调仓的模型。

各模型上周、最近一个月和2018年以来超额收益表现

各模型2018年以来和2011年以来RankIC均值
模型RankIC计算方法：在某一股票池（如沪深300）内，使用模型对所有个股进行打分，然后将打分与个股下个月收益率计算Spearman 秩相关系数，即得到该模型的Rank IC 值。

对于全A选股，2018年以来RankIC均值最高的模型是朴素贝叶斯，该模型RankIC均值为0.109。

对于沪深300成分内选股，2018年以来RankIC均值最高的模型是随机森林，该模型RankIC均值为0.055。

对于中证500成分内选股，2018年以来RankIC均值最高的模型是朴素贝叶斯，该模型RankIC均值为0.083。

对于中证800成分内选股，2018年以来RankIC均值最高的模型是朴素贝叶斯，该模型RankIC均值为0.07。

各模型2011年以来超额收益曲线

各模型2011年以来详细回测绩效

各模型RankIC详细指标

华泰人工智能选股模型简介
本报告所涉及的所有机器学模型的详细介绍，可参见华泰人工智能系列报告：
1. 人工智能选股框架及经典算法简介
2. 人工智能选股之广义线性模型
3. 人工智能选股之支持向量机模型
4. 人工智能选股之朴素贝叶斯模型
5. 人工智能选股之随机森林模型
6. 人工智能选股之Boosting模型
7. 人工智能选股之Python实战
8. 人工智能选股之全连接神经网络
9. 人工智能选股之循环神经网络模型
10. 宏观周期指标应用于随机森林选股
11. 人工智能选股之Stacking集成学习
12. 人工智能选股之特征选择
13. 人工智能选股之损失函数的改进
14. 对抗过拟合：从时序交叉验证谈起
15. 人工智能选股之卷积神经网络
16. 再论时序交叉验证对抗过拟合
17. 人工智能选股之数据标注方法实证

机器学习模型运用到多因子选股的流程

1．数据获取：
a) 股票池：沪深300成份股/中证500成份股/全A股。剔除ST股票，剔除每个截面期下一交易日停牌的股票，剔除上市3个月内的股票，每只股票视作一个样本。
b) 训练样本长度：72个月。
2．特征和标签提取：每个自然月的最后一个交易日，计算70个因子暴露度，作为样本的原始特征；计算下一整个自然月的个股超额收益（以沪深300指数为基准），作为样本的标签。因子池如图表21所示。
3．特征预处理：
a) 中位数去极值：设第T期某因子在所有个股上的暴露度序列为D_i，D_M 为该序列中位数，D_{M1}为序列|D_i-D_M|的中位数，则将序列中所有大于D_M+5D_{M1}的数重设为D_M+5D_{M1}，将序列中所有小于D_M-5D_{M1}的数重设为D_M-5D_{M1}；
b) 缺失值处理：得到新的因子暴露度序列后，将因子暴露度缺失的地方设为中信一级行业相同个股的平均值。
c) 行业市值中性化：将填充缺失值后的因子暴露度对行业哑变量和取对数后的市值做线性回归，取残差作为新的因子暴露度。
d) 标准化：将中性化处理后的因子暴露度序列减去其现在的均值、除以其标准差，得到一个新的近似服从N(0,1)分布的序列。
4．训练集和交叉验证集的合成：
a) 分类问题：在每个月末截面期，选取下月收益排名前30%的股票作为正例（y=1），后30%的股票作为负例（y=0）。将训练样本合并，随机选取90%的样本作为训练集，余下10%的样本作为交叉验证集。
b) 回归问题：直接将样本合并成为样本内数据，同样按90%和10%的比例划分训练集和交叉验证集。
5．样本内训练：使用机器学习模型对训练集进行训练。
6．交叉验证调参：模型训练完成后，使用模型对交叉验证集进行预测。选取交叉验证集AUC（或平均AUC）最高的一组参数作为模型的最优参数。
7．样本外测试：确定最优参数后，以T月月末截面期所有样本预处理后的特征作为模型的输入，得到每个样本的预测值f(x)，使用预测值构建组合选股。

本报告中，我们跟踪了Stacking、SVM、朴素贝叶斯、随机森林、XGBoost、逻辑回归、神经网络7个模型在月频多因子选股的表现。对于每一种模型，我们构建了以下5种多因子选股模型，进行定期跟踪（对于Stacking模型，目前只应用于全A选股，后续会对其应用于指数内选股进行研究）。

1. 全A选股（沪深300行业市值中性）：月频调仓，在全部A股中选股，组合构建时相对于沪深300指数进行行业中性和市值中性。
2. 全A选股（中证500行业市值中性）：月频调仓，在全部A股中选股，组合构建时相对于中证500指数进行行业中性和市值中性。
3. 沪深300指数内选股：月频调仓，在沪深300指数成分股中选股，组合构建时相对于沪深300指数进行行业中性和市值中性。
4. 中证500指数内选股：月频调仓，在中证500指数成分股中选股，合构建时相对于中证500指数进行行业中性和市值中性。
5. 中证800指数内选股：月频调仓，在中证800指数成分股中选股，合构建时相对于中证800指数进行行业中性和市值中性。

对于所有跟踪的模型，使用如下统一回测条件：
1. 股票池处理：剔除ST、停牌、上市3个月以内的股票。
2. 特征提取：70个因子作为特征（估值、成长、动量翻转、波动率、换手率、情绪、技术、市值等）。对原始因子做中位数去极值，缺失值填充（行业平均），行业市值中性，标准化。
交易费用：单边千分之二。

风险提示
通过人工智能模型构建选股策略是历史经验的总结，存在失效的可能。人工智能模型可解释程度较低，使用须谨慎。

免责申明
本公众平台不是华泰证券研究所官方订阅平台。相关观点或信息请以华泰证券官方公众平台为准。根据《证券期货投资者适当性管理办法》的相关要求，本公众号内容仅面向华泰证券客户中的专业投资者，请勿对本公众号内容进行任何形式的转发。若您并非华泰证券客户中的专业投资者，请取消关注本公众号，不再订阅、接收或使用本公众号中的内容。因本公众号难以设置访问权限，若给您造成不便，烦请谅解！本公众号旨在沟通研究信息，交流研究经验，华泰证券不因任何订阅本公众号的行为而将订阅者视为华泰证券的客户。

本公众号研究报告有关内容摘编自已经发布的研究报告的，若因对报告的摘编而产生歧义，应以报告发布当日的完整内容为准。如需了解详细内容，请具体参见华泰证券所发布的完整版报告。

本公众号内容基于作者认为可靠的、已公开的信息编制，但作者对该等信息的准确性及完整性不作任何保证，也不对证券价格的涨跌或市场走势作确定性判断。本公众号所载的意见、评估及预测仅反映发布当日的观点和判断。在不同时期，华泰证券可能会发出与本公众号所载意见、评估及预测不一致的研究报告。

在任何情况下，本公众号中的信息或所表述的意见均不构成对客户私人投资建议。订阅人不应单独依靠本订阅号中的信息而取代自身独立的判断，应自主做出投资决策并自行承担投资风险。普通投资者若使用本资料，有可能会因缺乏解读服务而对内容产生理解上的歧义，进而造成投资损失。对依据或者使用本公众号内容所造成的一切后果，华泰证券及作者均不承担任何法律责任。

本公众号版权仅为华泰证券股份有限公司所有，未经公司书面许可，任何机构或个人不得以翻版、复制、发表、引用或再次分发他人等任何形式侵犯本公众号发布的所有内容的版权。如因侵权行为给华泰证券造成任何直接或间接的损失，华泰证券保留追究一切法律责任的权利。本公司具有中国证监会核准的“证券投资咨询”业务资格，经营许可证编号为：91320000704041011J。

林晓明
执业证书编号：S0570516010001

华泰金工深度报告一览
金融周期系列研究（资产配置）
【华泰金工林晓明团队】二十载昔日重现，三四年周期轮回——2019年中国与全球市场量化资产配置年度观点（下）
【华泰金工林晓明团队】二十载昔日重现，三四年周期轮回——2019年中国与全球市场量化资产配置年度观点（上）
【华泰金工林晓明团队】周期轮动下的BL资产配置策略
【华泰金工林晓明团队】周期理论与机器学习资产收益预测——华泰金工市场周期与资产配置研究
【华泰金工林晓明团队】市场拐点的判断方法
【华泰金工林晓明团队】2018中国与全球市场的机会、风险 · 年度策略报告（上）
【华泰金工林晓明团队】基钦周期的量化测度与历史规律 · 华泰金工周期系列研究
【华泰金工林晓明团队】周期三因子定价与资产配置模型（四）——华泰金工周期系列研究
【华泰金工林晓明团队】周期三因子定价与资产配置模型（三）——华泰金工周期系列研究
【华泰金工林晓明团队】周期三因子定价与资产配置模型（二）——华泰金工周期系列研究
【华泰金工林晓明团队】周期三因子定价与资产配置模型（一）——华泰金工周期系列研究
【华泰金工林晓明团队】华泰金工周期研究系列 · 基于DDM模型的板块轮动探索
【华泰金工林晓明团队】市场周期的量化分解
【华泰金工林晓明团队】周期研究对大类资产的预测观点
【华泰金工林晓明团队】金融经济系统周期的确定（下）——华泰金工周期系列研究
【华泰金工林晓明团队】金融经济系统周期的确定（上）——华泰金工周期系列研究
【华泰金工林晓明团队】全球多市场择时配置初探——华泰周期择时研究系列
行业指数频谱分析及配置模型：市场的周期分析系列之三
【华泰金工林晓明团队】市场的频率——市场轮回，周期重生
【华泰金工林晓明团队】市场的轮回——金融市场周期与经济周期关系初探

FOF与金融创新产品
【华泰金工】生命周期基金Glide Path开发实例——华泰FOF与金融创新产品系列研究报告之一

因子周期（因子择时）
【华泰金工林晓明团队】市值因子收益与经济结构的关系——华泰因子周期研究系列之三
【华泰金工林晓明团队】周期视角下的因子投资时钟--华泰因子周期研究系列之二
【华泰金工林晓明团队】因子收益率的周期性研究初探

择时
【华泰金工林晓明团队】华泰风险收益一致性择时模型
【华泰金工林晓明团队】技术指标与周期量价择时模型的结合
【华泰金工林晓明团队】华泰价量择时模型——市场周期在择时领域的应用

行业轮动
【华泰金工林晓明团队】行业轮动系列之六：“华泰周期轮动”基金组合构建20190312
【华泰金工林晓明团队】估值因子在行业配置中的应用——华泰行业轮动系列报告之五
【华泰金工林晓明团队】动量增强因子在行业配置中的应用--华泰行业轮动系列报告之四
【华泰金工林晓明团队】财务质量因子在行业配置中的应用--华泰行业轮动系列报告之三
【华泰金工林晓明团队】周期视角下的行业轮动实证分析·华泰行业轮动系列之二
【华泰金工林晓明团队】基于通用回归模型的行业轮动策略 · 华泰行业轮动系列之一

Smartbeta
【华泰金工林晓明团队】Smart Beta：乘风破浪趁此时——华泰Smart Beta系列之一
【华泰金工林晓明团队】Smartbeta在资产配置中的优势——华泰金工Smartbeta专题研究之一

多因子选股
【华泰金工林晓明团队】因子合成方法实证分析 ——华泰多因子系列之十
【华泰金工林晓明团队】华泰单因子测试之一致预期因子 ——华泰多因子系列之九
【华泰金工林晓明团队】华泰单因子测试之财务质量因子——华泰多因子系列之八
【华泰金工林晓明团队】华泰单因子测试之资金流向因子——华泰多因子系列之七
【华泰金工林晓明团队】华泰单因子测试之波动率类因子——华泰多因子系列之六
【华泰金工林晓明团队】华泰单因子测试之换手率类因子——华泰多因子系列之五
【华泰金工林晓明团队】华泰单因子测试之动量类因子——华泰多因子系列之四
【华泰金工林晓明团队】华泰单因子测试之成长类因子——华泰多因子系列之三
【华泰金工林晓明团队】华泰单因子测试之估值类因子——华泰多因子系列之二
【华泰金工林晓明团队】华泰多因子模型体系初探——华泰多因子系列之一
【华泰金工林晓明团队】五因子模型A股实证研究
【华泰金工林晓明团队】红利因子的有效性研究——华泰红利指数与红利因子系列研究报告之二

人工智能
【华泰金工林晓明团队】偶然中的必然：重采样技术检验过拟合——华泰人工智能系列之十九
【华泰金工林晓明团队】机器学习选股模型的调仓频率实证——华泰人工智能系列之十八
【华泰金工林晓明团队】人工智能选股之数据标注方法实证——华泰人工智能系列之十七
【华泰金工林晓明团队】再论时序交叉验证对抗过拟合——华泰人工智能系列之十六
【华泰金工林晓明团队】人工智能选股之卷积神经网络——华泰人工智能系列之十五
【华泰金工林晓明团队】对抗过拟合：从时序交叉验证谈起
【华泰金工林晓明团队】人工智能选股之损失函数的改进——华泰人工智能系列之十三
【华泰金工林晓明团队】人工智能选股之特征选择——华泰人工智能系列之十二
【华泰金工林晓明团队】人工智能选股之Stacking集成学习——华泰人工智能系列之十一
【华泰金工林晓明团队】宏观周期指标应用于随机森林选股——华泰人工智能系列之十
【华泰金工林晓明团队】人工智能选股之循环神经网络——华泰人工智能系列之九
【华泰金工林晓明团队】人工智能选股之全连接神经网络——华泰人工智能系列之八
【华泰金工林晓明团队】人工智能选股之Python实战——华泰人工智能系列之七
【华泰金工林晓明团队】人工智能选股之Boosting模型——华泰人工智能系列之六
【华泰金工林晓明团队】人工智能选股之随机森林模型——华泰人工智能系列之五
【华泰金工林晓明团队】人工智能选股之朴素贝叶斯模型——华泰人工智能系列之四
【华泰金工林晓明团队】人工智能选股之支持向量机模型— —华泰人工智能系列之三
【华泰金工林晓明团队】人工智能选股之广义线性模型——华泰人工智能系列之二

指数增强基金分析
【华泰金工林晓明团队】再探回归法测算基金持股仓位——华泰基金仓位分析专题报告
【华泰金工林晓明团队】酌古御今：指数增强基金收益分析
【华泰金工林晓明团队】基于回归法的基金持股仓位测算
【华泰金工林晓明团队】指数增强方法汇总及实例——量化多因子指数增强策略实证

基本面选股
【华泰金工林晓明团队】华泰价值选股之相对市盈率港股模型——相对市盈率港股通模型实证研究
【华泰金工林晓明团队】华泰价值选股之FFScore模型
【华泰金工林晓明团队】相对市盈率选股模型A股市场实证研究
【华泰金工林晓明团队】华泰价值选股之现金流因子研究——现金流因子选股策略实证研究
【华泰金工林晓明团队】华泰基本面选股之低市收率模型——小费雪选股法 A 股实证研究
【华泰金工林晓明团队】华泰基本面选股之高股息率模型之奥轩尼斯选股法A股实证研究

基金定投
【华泰金工林晓明团队】大成旗下基金2018定投策略研究
【华泰金工林晓明团队】布林带与股息率择时定投模型——基金定投系列专题研究报告之四
【华泰金工林晓明团队】基金定投3—马科维茨有效性检验
【华泰金工林晓明团队】基金定投2—投资标的与时机的选择方法
【华泰金工林晓明团队】基金定投1—分析方法与理论基础

其它
【华泰金工林晓明团队】A股市场及行业的农历月份效应——月份效应之二
A股市场及行业的月份效应——详解历史数据中的隐藏法则