【华泰金工林晓明团队】人工智能选股之数据标注方法实证——华泰人工智能系列之十七

论坛 期权论坛 期权     
华泰金融工程   2019-3-14 08:45   3356   0
摘要
本文测试了多种数据标注方法以及集成模型,XGBR-Combine表现最好
将机器学习运用于多因子选股时,不同的数据标注结果(数据标签)会使得模型得出不同的训练和预测结果。本文使用随机数种子+多次测试的手段,研究对比了分类和回归、使用夏普比率作为标签、使用信息比率作为标签以及使用Calmar比率作为标签的方法,回测表现整体符合预期。最后,我们将不同数据标注方法训练的模型进行等权集成得到模型XGBR-Combine,该模型在回测中表现最为全面。
本文使用了随机数种子+多次测试的方法来验证数据标注方法的有效性
在机器学习模型的训练过程中,会有各种各样的步骤给模型带来随机性,如果本文仅对一系列数据标注方法进行单次测试,那么所得出的结果未必具有说服力。此时有必要进行多次对比测试来获得统计意义上的“确定结果”。在多次测试中,可以对模型设置不同的随机数种子,使得每次测试中模型的预测都有一定差别,最后我们统计对比模型构建策略的相应指标的分布情况,就能得到更具有说服力的结果。
  
本文对比了XGBoost分类和回归的测试结果,回归整体表现更好
本文对比了全A股票池中,XGBoost分类(XGBC)和回归(XGBR)。单因子回归和IC测试中,XGBR只在RankIC均值上略低于XGBC,其他指标表现都比XGBC要好。单因子分层测试的TOP组合中。XGBC在收益指标上(年化收益率、年化超额收益率)上表现更好,XGBR则在风险指标(超额收益最大回撤,Calmar比率)上表现更好。本文还构建了相对于中证500的行业、市值中性全A选股策略并进行回测,XGBR相比XGBC在信息比率上有稳定优势。在其他指标上,XGBR和XGBC的表现不相上下。整体来看,XGBoost回归的表现更好。
  
本文还测试了另外三种数据标注方法,回测表现整体符合预期
本文还在全A股票池中测试了另外三种数据标注方法,使用夏普比率作为标签的模型(XGBR-Sharpe),使用信息比率作为标签的模型(XGBR-IR)以及使用Calmar比率作为标签的模型(XGBR-Calmar)。整体来看,在对应的测试中,XGBR-Sharpe比XGBR的夏普比率更高,XGBR-IR比XGBR的信息比率更高,XGBR-Calmar比XGBR的Calmar比率更高。三种数据标注方法的回测表现和它们各自所设定的学习目标相匹配,结果整体符合预期。


本文将不同数据标注方法训练的模型进行等权集成,回测表现最为全面
机器学习领域中可以采用模型等权集成的方式以充分体现不同模型的优点。我们将XGBR,XGBR-IR,XGBR-Calmar三个模型集成得到XGBR-Combine并构建了相对于中证500的行业、市值中性全A选股策略,回测结果中,XGBR-Combine综合了三个基模型的优点,在年化超额收益率(14.74%~18.22%)、信息比率(2.28~3.39)上都表现最好,在超额收益最大回撤(3.83%~8.79%)、Calmar比率(2.13~3.87)上也有不错的表现。同时,XGBR-Combine的以上4个回测指标的标准差都比较小,说明其在多次测试中受随机性的干扰程度最小,表现最为稳定。
  
风险提示:通过人工智能模型构建的选股策略是历史经验的总结,存在失效的可能。人工智能模型可解释程度较低,使用须谨慎。


本文研究导读
机器学习主要分为监督学习(supervised learning)和无监督学习(unsupervised learning)。而在监督学习中,如何为训练样本进行数据标注(data labeling)是一个非常重要的话题。由于数据标注的结果(数据标签)会直接作用于监督学习的目标函数(objective function),不同的数据标注方法会使得监督学习得出不同的训练和预测结果。结合机器学习在多因子选股中的运用,本文将列出各种数据标注方法并进行系统的测试。本文将主要关注以下问题:


1. 在将机器学习运用到多因子选股中时,有哪些数据标注方法?


2. 如何验证各种数据标注方法的有效性?


3. 各种数据标注方法在选股中的测试效果如何?是否与它们各自所设定的学习目标相匹配?


4. 如何综合利用各种数据标注方法的优点以达到更好的回测效果?

数据标注简介和数据标注的方法
监督学习和数据标注
在机器学习领域,监督学习是指利用一组带标签的数据,学习从输入特征X到标签y的映射y=f(X),然后将这种映射关系f应用到未知数据,达到预测未知数据标签的目的。其中,生成带标签数据的过程就是数据标注。监督学习研究中主要有三个不同的侧重点,图表1里左侧主要研究和对比不同监督学习模型的优劣,是本系列之前多篇报告中着重探讨的话题;图表1里中间部分主要研究输入训练集的处理,对应本系列报告《人工智能选股之特征选择》;图表1里右侧主要研究数据标注的方法,这在本系列报告《人工智能选股之损失函数的改进》中有过一定研究,本文将专门对监督学习中数据标注的方法进行深入全面的探讨。





机器学习多因子选股中的数据标注方法
由上一节的介绍可以看出,数据标注在监督学习流程中往往是一个比较简单的步骤,但由于其直接与模型的输出和目标函数相关,所以会对监督学习的结果造成较大影响。另外,数据标注方法和具体的应用领域也有很大关系,本节将介绍将机器学习应用于多因子选股时的数据标注方法。


分类和回归
《统计学习方法》中对分类和回归的定义为:
标签(y)为连续变量的预测问题是回归问题。
标签(y)为有限个离散变量的预测问题为分类问题。
在实际的回归应用中,由于数据量有限,标签y不可能严格连续,但标签y往往会有很多取值(成百上千甚至更多),因此依然可以视为回归问题。对于分类问题,最常见的是二分类问题(y只有两种取值),因此本文只讨论二分类问题。我们将通过一个简单的例子来形象展示分类和回归的区别。


线性回归(linear regression)是最简单常用的回归模型,可以使用它来拟合股票市盈率因子和收益率的关系。我们选取沪深300成分股2016年底的市盈率以及2017年一季度涨跌幅。对市盈率TTM取倒数,进行中位数去极值和标准化处理,得到EP因子。如图表2所示,线性回归可以较好地拟合输入特征x1(EP因子)和标签y(涨跌幅)的关系,图中的直线对应于线性回归模型y=w0+w1x1,其中系数的估计量w0=2.32,w1=3.03。在这个例子中,模型拟合的标签是股票的涨跌幅。


另一种情况是,我们并不想预测股票未来具体的涨跌幅,而是希望预测股票未来会上涨还是下跌。换言之,我们面对的是“分类”问题,而非“回归”问题。此时可以使用逻辑回归(logistic regression),尽管其名字中包含回归二字,却是解决分类问题常用的机器学习方法。例如,我们希望用股票的市盈率预测涨跌情况,选取沪深300成分股2017年一季度的涨跌幅排名前50名和后50名的个股,计算2016年底的市盈率EP因子,将涨幅前50的个股定义为类别y=1(图表3中的红色样本),跌幅前50的个股定义为类别y=0(图表3中的蓝色样本)。然后就可以使用下面的逻辑回归模型进行拟合。




通过极大似然估计方法求得参数w0=1.95,w1=0.36。拟合结果如图表3的曲线所示,曲线上的每个点表示某个EP因子x1对应的上涨概率P(x1)。当x1取极大的数时,上涨概率P(x1)趋向于1;当x1取极小的数时,上涨概率P(x1)趋向于0。




承接上面的例子,在图表4中,我们总结了机器学习运用于多因子选股时,回归和二分类的对比。





更多数据标注方法

在将机器学习运用于多因子选股时,除了使用股票收益率作为标签,还可以使用一些能综合体现股票收益、回撤以及波动的指标来给股票样本打标签,本文将测试以下三种数据标注方法:
1. 使用个股的夏普比率进行数据标注。假设个股在第t截面期的复权收盘价为Pt,第t+1截面期的复权收盘价为Pt+1,在这两个截面期之间的日度收益率标准差为1,则个股的夏普比率定义为下式。




为了简单起见,我们没有在上式中加入无风险收益率。该指标反映了个股的收益波动比,通过该指标给个股打标签,我们希望机器学习模型通过训练能选出具有较高收益波动比的股票。

2. 使用个股的信息比率进行数据标注。假设个股在第t截面期的复权收盘价为Pt,第t+1截面期的复权收盘价为Pt+1,业绩比较基准(本文中为中证500)的第t截面期的复权收盘价为Bt,第t+1截面期的复权收盘价为Bt+1,在这两个截面期之间个股的日度超额收益率标准差为2,则个股的信息比率定义为下式。



该指标反映了个股的超额收益和跟踪误差之比,通过该指标给个股打标签,我们希望机器学习模型通过训练能选出具有较高信息比率的股票。


3. 使用个股的Calmar比率进行数据标注。本文计算的是超额收益的Calmar比率。假设个股在第t截面期的复权收盘价为Pt,第t+1截面期的复权收盘价为Pt+1,业绩比较基准(本文中为中证500)的第t截面期的复权收盘价为Bt,第t+1截面期的复权收盘价为Bt+1,在这两个截面期之间个股的超额收益最大回撤为MaxDD,则个股的Calmar比率定义为下式。




该指标反映了个股的超额收益和超额收益最大回撤之比,通过该指标给个股打标签,我们希望机器学习模型通过训练能选出具有较高Calmar比率的股票。


如何验证数据标注方法的有效性?随机数种子+多次测试
在机器学习模型的训练过程中,会有各种各样的步骤给模型带来随机性。比如对XGBoost进行训练时,会对数据和特征进行随机采样;对神经网络进行训练时,会随机初始化网络权重。这些随机性使得模型的预测结果出现不确定性。人们为了避免这种不确定性,使得同一模型每次训练得出的结果完全相同,会设置一个固定的随机数种子(random seed)。
  
对于本文要对比的一系列数据标注方法来说,单次测试所得出的结果未必具有说服力。比如我们想要对比使用收益率打标签和使用夏普比率打标签的测试结果,经过单次测试之后,发现使用夏普比率的模型构建的策略夏普比率更高,然而这有可能是因为机器学习模型内部的随机性并叠加上金融市场的随机性所得出的“随机结果”,此时就有必要进行多次对比测试来获得统计意义上的“确定结果”。在多次测试中,可以对模型设置不同的随机数种子,使得每次测试中模型的预测都有一定差别,最后我们统计两种对比模型构建策略的夏普比率的分布情况,从而得到更具有说服力的结果。图表5展示了随机数种子+多次测试流程图。




不同数据标注方法训练所得模型的集成
对比多种数据标注方法训练所得模型的回测结果,不同的模型可能在不同的回测指标上有一定优势。为了充分利用不同模型的优点,模型的等权集成是一种常用的方法。本文将借鉴上一节的多次测试的思想,使用模型之间的随机组合来测试模型等权集成的效果。图表6展示了对多种数据标注方法预测结果进行集成的测试流程。





数据标注方法测试流程
测试流程




  • 数据获取:
    1)股票池:全A股。剔除ST股票,剔除每个截面期下一交易日停牌的股票,剔除上市3个月内的股票,每只股票视作一个样本。
    2)回测区间:2011年1月31日至2019年2月28日。
  • 特征提取和预处理:
    1)每个自然月的最后一个交易日,计算82个因子暴露度,作为样本的原始特征,因子池如图表10和图表11所示。
    2)中位数去极值:设第T期某因子在所有个股上的暴露度序列为Di,DM为该序列中位数,DM1为序列|Di-DM|的中位数,则将序列Di中所有大于DM+5DM1的数重设为DM+5DM1,将序列中所有小于DM-5DM1的数重设为DM-5DM1;
    3)缺失值处理:得到新的因子暴露度序列后,将因子暴露度缺失的地方设为中信一级行业相同个股的平均值;
    4)行业市值中性化:将填充缺失值后的因子暴露度对行业哑变量和取对数后的市值做线性回归,取残差作为新的因子暴露度;
    5)标准化:将中性化处理后的因子暴露度序列减去其现在的均值、除以其标准差,得到一个新的近似服从N(0, 1)分布的序列。
  • 数据标注:该步骤是本文的着重步骤,主要使用以下数据标注方法:
    1)分类:每个时间截面上,对股票收益率进行降序排序,取排名前三分之一的股票标记为1,排名后三分之一的股票标记为0。
    2)回归:每个月末截面上,使用标准化后的下个月股票超额收益率(相对中证500)作为标签,为了方便和分类进行对比,按标签取值进行降序排序,选取排前三分之一和后三分之一的样本。
    3)夏普比率:每个月末截面上,使用标准化后的下个月股票夏普比率作为标签,为了方便和(2)中的回归进行对比,按标签取值进行降序排序,选取排前三分之一和后三分之一的样本。
    4)信息比率:每个月末截面上,使用标准化后的下个月股票信息比率(相对中证500)作为标签,为了方便和(2)中的回归进行对比,按标签取值进行降序排序,选取排前三分之一和后三分之一的样本。
    5)Calmar比率:每个月末截面上,使用标准化后的下个月股票Calmar比率作为标签,为了方便和(2)中的回归进行对比,按标签取值进行降序排序,选取排前三分之一和后三分之一的样本。
  • 年度交叉验证调参:由于交叉验证调参的时间开销较大,本文采用年度交叉验证调参的方式。全体数据共分为九个阶段,如图表8所示。例如在选择2011年最优参数时,将2005-2010年共72个月数据合并作为样本内数据集;在选择第N年最优超参数时,将N-6至N-1年的72个月合并作为样本内数据。使用时序交叉验证的方式确定第N年模型的最优超参数。
  • 月度训练模型:如图表9所示,当第N年的最优超参数确定之后,对于其中的某个月份T月来说,将T-72至T-1月的72个月合并作为样本内数据集,使用第N年的最优超参数训练模型。
  • 样本外测试:确定最优参数后,以T月末截面期所有样本预处理后的特征作为模型的输入,得到每个样本的预测值f(x)。将预测值视作合成后的因子。
  • 模型评价:我们以模型合成因子的单因子测试结果和构建选股策略的结果作为模型评价标准。
  • 模型对比:对于每种数据标注方法,重复100次步骤5~7,每次训练模型设置不同的随机数种子(random seed),形成100组测试结果,统计模型评价指标的分布情况,进行模型对比。












数据标注方法测试结果
分类和回归的对比
本节我们将对比以下两个模型:
1.   XGBC:XGBoost分类模型。
2.   XGBR:XGBoost回归模型。


单因子回归测试和IC测试
如果将机器学习模型的输出视为单因子,则可进行单因子测试。测试模型构建方法如下:
  • 股票池:全A股,剔除ST股票,剔除每个截面期下一交易日停牌的股票,剔除上市3个月以内的股票。
  • 回测区间:2011-01-31至2019-02-28。
  • 截面期:每个月月末,用当前截面期因子值与当前截面期至下个截面期内的个股收益进行回归和计算RankIC值。
  • 数据处理方法:对于分类模型,将模型对股票下期上涨概率的预测值视作单因子。对于回归模型,将回归预测值视作单因子。因子值为空的股票不参与测试。
  • 回归测试中采用加权最小二乘回归(WLS),使用个股流通市值的平方根作为权重。IC测试时对单因子进行行业市值中性。


我们使用不同的随机数种子进行了100次测试,测试所得指标的平均值如图表12所示,可以看出,XGBR模型只在RankIC均值上稍低于XGBC模型,其他指标表现都比XGBC模型要好。


图表13和图表14展示了在100次测试中,两种模型的RankIC均值和因子收益率均值的分布情况。可见,两种模型的RankIC均值分布比较接近,但是从因子收益率均值分布上看,XGBR模型完全优于XGBC模型。






单因子分层测试
依照因子值对股票进行打分,构建投资组合回测,是最直观的衡量因子优劣的手段。测试模型构建方法如下:

  • 股票池、回测区间、截面期均与回归法相同。
  • 换仓:在每个自然月最后一个交易日核算因子值,在下个自然月首个交易日按当日收盘价换仓,交易费用以双边千分之四计。
  • 分层方法:因子先用中位数法去极值,然后进行市值、行业中性化处理(方法论详见上一小节),将股票池内所有个股按因子从大到小进行排序,等分N层,每层内部的个股等权配置。当个股总数目无法被N整除时采用任一种近似方法处理均可,实际上对分层组合的回测结果影响很小。
  • 多空组合收益计算方法:用Top组每天的收益减去Bottom组每天的收益,得到每日多空收益序列r1,r2,…,rn,则多空组合在第n天的净值等于(1+r1)(1+r2)…(1+rn)。
评价方法:全部N层组合年化收益率(观察是否单调变化),多空组合的年化收益率、夏普比率、最大回撤、月胜率等。
  
我们使用不同的随机数种子进行了100次测试,分层测试指标的平均值如图表15所示,两种模型的TOP组合年化收益率、多空组合年化收益率和多空组合夏普比率都比较接近。


另外,我们详细对比了两种模型分层测试的TOP组合的表现(图表16),两种模型表现不相上下,总体来看各项指标都比较接近。图表17和图表18展示了在100次测试中,两种模型的年化超额收益率均值和信息比率均值的分布情况。





构建策略组合及回测分析
基于XGBC和XGBR模型,我们构建了相对于中证500的行业、市值中性全A选股策略并进行回测,图表19中展示了100次测试的平均结果。图表19从左至右的各列对应不同的个股权重偏离上限。可见,XGBR相比XGBC在信息比率上有稳定优势。在其他指标上,XGBR和XGBC的表现不相上下。







按超额收益率回归和按夏普比率回归的对比
本节我们将对比以下两个模型:
1.   XGBR:XGBoost回归模型,以个股相对中证500的超额收益率为标签。
2.   XGBR-Sharpe:XGBoost回归模型,以个股的夏普比率为标签。
  
由于单因子测试中的回归测试和IC测试是对个股收益进行回归或求IC值,而XGBR-Sharpe模型是对个股夏普比率进行预测,所以对其进行回归测试和IC测试意义不大,本节将只进行单因子分层测试和构建策略组合回测,并重点关注测试中的夏普比率指标。


单因子分层测试
我们使用不同的随机数种子进行了100次测试,分层测试指标的平均值如图表22所示,XGBR-Sharpe的多空组合夏普比率更高。另外,我们详细对比了两种模型分层测试的TOP组合的表现(图表23),XGBR-Sharpe的TOP组合夏普比率更高,分析夏普比率提升的原因,XGBR-Sharpe模型主要是在年化收益率上表现更好,在年化波动率上表现则没有优势。




图表24和图表25展示了在100次测试中,两种模型的多空组合夏普比率和TOP组合夏普比率的分布情况。




构建策略组合及回测分析
基于XGBR和XGBR-Sharpe模型,我们构建了相对于中证500的行业、市值中性全A选股策略并进行回测,图表26中展示了100次测试的平均结果。可见,XGBR-Sharpe相比XGBR在夏普比率上有比较稳定的优势。分析夏普比率提升的原因,XGBR-Sharpe模型主要是在年化收益率上表现更好,在年化波动率上则没有优势。


当个股权重偏离上限为2%时,图表27和图表28展示了在100次测试中,两种模型的年化收益率和夏普比率的分布情况。该情况下,XGBR-Sharpe的表现优于XGBR。



按超额收益率回归和按信息比率回归的对比
本节我们将对比以下两个模型:
1.   XGBR:XGBoost回归模型,以个股相对中证500的超额收益率为标签。
2.   XGBR-IR:XGBoost回归模型,以个股的信息比率(基准为中证500)为标签。
  
由于单因子测试中的回归测试和IC测试是对个股收益进行回归或求IC值,而XGBR-IR模型是对个股夏普比率进行预测,所以对其进行回归测试和IC测试意义不大。另外,单因子分层测试中所计算的信息比率的基准是全A等权组合,与XGBR-IR的标签所使用的信息比率基准(中证500)不同,因此对其进行分层测试也意义不大。所以本节只进行构建策略组合回测,并重点关注测试中的信息比率指标。


构建策略组合及回测分析
基于XGBR和XGBR-IR模型,我们构建了相对于中证500的行业、市值中性全A选股策略并进行回测,图表29中展示了100次测试的平均结果。可见,当个股权重偏离上限较大时,XGBR-IR相比XGBR在信息比率上有稳定的优势。分析信息比率提升的原因,XGBR-IR模型主要是在年化超额收益率上表现更好,而在跟踪误差上表现不如XGBR,在超额收益最大回撤上表现也不如XGBR。





当个股权重偏离上限为2%时,图表30和图表31展示了在100次测试中,两种模型的年化超额收益率和信息比率的分布情况。该情况下,XGBR-IR的表现优于XGBR。


按超额收益率回归和按Calmar比率回归的对比
本节我们将对比以下两个模型:
1.   XGBR:XGBoost回归模型,以个股相对中证500的超额收益率为标签。
2.   XGBR-Calmar:XGBoost回归模型,以个股的Calmar比率(基准为中证500)为标签。
  
由于单因子测试中的回归测试和IC测试是对个股收益进行回归或求IC值,而XGBR-Calmar模型是对个股Calmar比率进行预测,所以对其进行回归测试和IC测试意义不大。另外,单因子分层测试中所计算的Calmar的基准是全A等权组合,与XGBR-Calmar的标签所使用的Calmar比率基准(中证500)不同,因此对其进行分层测试也意义不大。所以本节只进行构建策略组合回测,并重点关注测试中的Calmar比率指标。


构建策略组合及回测分析
基于XGBR和XGBR-Calmar模型,我们构建了相对于中证500的行业、市值中性全A选股策略并进行回测,图表32中展示了100次测试的平均结果。可见,当个股权重偏离上限较大时,XGBR-Calmar相比XGBR在Calmar比率上有稳定的优势。分析Calmar比率提升的原因,XGBR-Calmar模型主要是在年化超额收益率上表现更好,在超额收益最大回撤上优势并不明显。





个股权重偏离上限为2%时,图表33和图表34展示了在100次测试中,两种模型的年化超额收益率和Calmar比率的分布情况。该情况下,XGBR-Calmar的表现优于XGBR。





不同数据标注方法所得模型集成的测试结果
本章中,我们将使用图表6中的测试流程进行模型集成的测试。在多因子Alpha模型中,信息比率和Calmar比率是两个重要的指标,我们将对以下三个模型进行集成得到模型XGBR-Combine,并构建策略组合回测。
1.   XGBR:XGBoost回归模型,以相对中证500的超额收益率为标签。
2.   XGBR-IR:XGBoost回归模型,以个股的信息比率(基准为中证500)为标签。
3.   XGBR-Calmar:XGBoost回归模型,以个股的Calmar比率(基准为中证500)为标签。
构建策略组合及回测分析
基于上面提到的四个模型,我们构建了相对于中证500的行业、市值中性全A选股策略并进行回测,图表35中展示了100次测试的平均结果。可见,XGBR-Combine模型综合了三个基模型的优点,在年化超额收益率、信息比率上都表现最好,在超额收益最大回撤、Calmar比率上也有不错的表现。



另外,我们对比了图表35中回测指标在100次测试中的标准差,以衡量各个模型表现的稳定性,结果展示在图表36中。从图表36可以看出XGBR-Combine的4个回测指标的标准差都比较小,说明其在100次测试中受随机性的干扰程度最小,表现最为稳定。



个股权重偏离上限为2%时,图表37和图表38展示了在100次测试中,四种模型的年化超额收益率和信息比率的分布情况。从图表37和图表38也可以看出,XGBR-Combine的回测指标分布最集中,表现最稳定。







结论
在机器学习中,如何为训练样本进行数据标注是一个非常重要的话题。由于数据标注的结果(数据标签)会直接作用于监督学习的目标函数,因此不同的数据标注方法会使得监督学习得出不同的训练和预测结果。结合机器学习在多因子选股中的运用,本文列出了各种数据标注方法并进行系统的测试,得出以下结论:


  • 在机器学习模型的训练过程中,会有各种各样的步骤给模型带来随机性,如果本文仅对一系列数据标注方法进行单次测试,那么所得出的结果未必具有说服力。此时有必要进行多次对比测试来获得统计意义上的“确定结果”。在多次测试中,可以对模型设置不同的随机数种子,使得每次测试中模型的预测都有一定差别,最后我们统计对比模型构建策略的相应指标的分布情况,就能得到更具有说服力的结果。


  • 本文对比了全A股票池中,XGBoost分类(XGBC)和回归(XGBR)。单因子回归和IC测试中,XGBR只在RankIC均值上略低于XGBC,其他指标表现都比XGBC要好。单因子分层测试的TOP组合中。XGBC在收益指标上(年化收益率、年化超额收益率)上表现更好,XGBR则在风险指标(超额收益最大回撤,Calmar比率)上表现更好。本文还构建了相对于中证500的行业、市值中性全A选股策略并进行回测,XGBR相比XGBC在信息比率上有稳定优势。在其他指标上,XGBR和XGBC的表现不相上下。整体来看,XGBoost回归的表现更好。


  • 本文还在全A股票池中测试了另外三种数据标注方法,使用夏普比率作为标签的模型(XGBR-Sharpe),使用信息比率作为标签的模型(XGBR-IR)以及使用Calmar比率作为标签的模型(XGBR-Calmar)。整体来看,在对应的测试中,XGBR-Sharpe比XGBR的夏普比率更高,XGBR-IR比XGBR的信息比率更高,XGBR-Calmar比XGBR的Calmar比率更高。三种数据标注方法的回测表现和它们各自所设定的学习目标相匹配,结果整体符合预期。


  • 机器学习领域中可以采用模型等权集成的方式以充分体现不同模型的优点。我们将XGBR,XGBR-IR,XGBR-Calmar三个模型集成得到XGBR-Combine并构建了相对于中证500的行业、市值中性全A选股策略,回测结果中,XGBR-Combine综合了三个基模型的优点,在年化超额收益率(14.74%~18.22%)、信息比率(2.28~3.39)上都表现最好,在超额收益最大回撤(3.83%~8.79%)、Calmar比率(2.13~3.87)上也有不错的表现。同时,XGBR-Combine的以上4个回测指标的标准差都比较小,说明其在多次测试中受随机性的干扰程度最小,表现最为稳定
风险提示
通过人工智能模型构建的选股策略是历史经验的总结,存在失效的可能。人工智能模型可解释程度较低,使用须谨慎。
免责申明
本报告仅供华泰证券股份有限公司(以下简称“本公司”)客户使用。本公司不因接收人收到本报告而视其为客户。
  
本报告基于本公司认为可靠的、已公开的信息编制,但本公司对该等信息的准确性及完整性不作任何保证。本报告所载的意见、评估及预测仅反映报告发布当日的观点和判断。在不同时期,本公司可能会发出与本报告所载意见、评估及预测不一致的研究报告。同时,本报告所指的证券或投资标的的价格、价值及投资收入可能会波动。本公司不保证本报告所含信息保持在最新状态。本公司对本报告所含信息可在不发出通知的情形下做出修改,投资者应当自行关注相应的更新或修改。
  
本公司力求报告内容客观、公正,但本报告所载的观点、结论和建议仅供参考,不构成所述证券的买卖出价或征价。该等观点、建议并未考虑到个别投资者的具体投资目的、财务状况以及特定需求,在任何时候均不构成对客户私人投资建议。投资者应当充分考虑自身特定状况,并完整理解和使用本报告内容,不应视本报告为做出投资决策的唯一因素。对依据或者使用本报告所造成的一切后果,本公司及作者均不承担任何法律责任。任何形式的分享证券投资收益或者分担证券投资损失的书面或口头承诺均为无效。
  
本公司及作者在自身所知情的范围内,与本报告所指的证券或投资标的不存在法律禁止的利害关系。在法律许可的情况下,本公司及其所属关联机构可能会持有报告中提到的公司所发行的证券头寸并进行交易,也可能为之提供或者争取提供投资银行、财务顾问或者金融产品等相关服务。本公司的资产管理部门、自营部门以及其他投资业务部门可能独立做出与本报告中的意见或建议不一致的投资决策。
  
本报告版权仅为本公司所有。未经本公司书面许可,任何机构或个人不得以翻版、复制、发表、引用或再次分发他人等任何形式侵犯本公司版权。如征得本公司同意进行引用、刊发的,需在允许的范围内使用,并注明出处为“华泰证券研究所”,且不得对本报告进行任何有悖原意的引用、删节和修改。本公司保留追究相关责任的权力。所有本报告中使用的商标、服务标记及标记均为本公司的商标、服务标记及标记。
  
本公司具有中国证监会核准的“证券投资咨询”业务资格,经营许可证编号为:91320000704041011J。



林晓明
执业证书编号:S0570516010001




华泰金工深度报告一览
金融周期系列研究(资产配置)

【华泰金工林晓明团队】二十载昔日重现,三四年周期轮回——2019年中国与全球市场量化资产配置年度观点(上)

【华泰金工林晓明团队】二十载昔日重现,三四年周期轮回——2019年中国与全球市场量化资产配置年度观点(下)

【华泰金工林晓明团队】周期轮动下的BL资产配置策略
【华泰金工林晓明团队】周期理论与机器学习资产收益预测——华泰金工市场周期与资产配置研究
【华泰金工林晓明团队】市场拐点的判断方法

【华泰金工林晓明团队】2018中国与全球市场的机会、风险 · 年度策略报告(上)
【华泰金工林晓明团队】基钦周期的量化测度与历史规律 · 华泰金工周期系列研究
【华泰金工林晓明团队】周期三因子定价与资产配置模型(四)——华泰金工周期系列研究

【华泰金工林晓明团队】周期三因子定价与资产配置模型(三)——华泰金工周期系列研究

【华泰金工林晓明团队】周期三因子定价与资产配置模型(二)——华泰金工周期系列研究

【华泰金工林晓明团队】周期三因子定价与资产配置模型(一)——华泰金工周期系列研究

【华泰金工林晓明团队】华泰金工周期研究系列 · 基于DDM模型的板块轮动探索

【华泰金工林晓明团队】市场周期的量化分解

【华泰金工林晓明团队】周期研究对大类资产的预测观点

【华泰金工林晓明团队】金融经济系统周期的确定(下)——华泰金工周期系列研究

【华泰金工林晓明团队】金融经济系统周期的确定(上)——华泰金工周期系列研究

【华泰金工林晓明团队】全球多市场择时配置初探——华泰周期择时研究系列

行业指数频谱分析及配置模型:市场的周期分析系列之三

【华泰金工林晓明团队】市场的频率——市场轮回,周期重生

【华泰金工林晓明团队】市场的轮回——金融市场周期与经济周期关系初探



FOF与金融创新产品
【华泰金工】生命周期基金Glide Path开发实例——华泰FOF与金融创新产品系列研究报告之一



因子周期(因子择时)

【华泰金工林晓明团队】周期视角下的因子投资时钟--华泰因子周期研究系列之二
【华泰金工林晓明团队】因子收益率的周期性研究初探



择时
【华泰金工林晓明团队】华泰风险收益一致性择时模型
【华泰金工林晓明团队】技术指标与周期量价择时模型的结合
【华泰金工林晓明团队】华泰价量择时模型——市场周期在择时领域的应用



行业轮动
【华泰金工林晓明团队】“华泰周期轮动”基金组合构建——华泰行业轮动系列报告之
【华泰金工林晓明团队】估值因子在行业配置中的应用——华泰行业轮动系列报告之五
【华泰金工林晓明团队】动量增强因子在行业配置中的应用--华泰行业轮动系列报告之四
【华泰金工林晓明团队】财务质量因子在行业配置中的应用--华泰行业轮动系列报告之三

【华泰金工林晓明团队】周期视角下的行业轮动实证分析·华泰行业轮动系列之二
【华泰金工林晓明团队】基于通用回归模型的行业轮动策略 · 华泰行业轮动系列之一


多因子选股
【华泰金工林晓明团队】因子合成方法实证分析 ——华泰多因子系列之十
【华泰金工林晓明团队】华泰单因子测试之一致预期因子 ——华泰多因子系列之九
【华泰金工林晓明团队】华泰单因子测试之财务质量因子——华泰多因子系列之八

【华泰金工林晓明团队】华泰单因子测试之资金流向因子——华泰多因子系列之七
【华泰金工林晓明团队】华泰单因子测试之波动率类因子——华泰多因子系列之六

【华泰金工林晓明团队】华泰单因子测试之换手率类因子——华泰多因子系列之五
【华泰金工林晓明团队】华泰单因子测试之动量类因子——华泰多因子系列之四
【华泰金工林晓明团队】华泰单因子测试之成长类因子——华泰多因子系列之三
【华泰金工林晓明团队】华泰单因子测试之估值类因子——华泰多因子系列之二

【华泰金工林晓明团队】华泰多因子模型体系初探——华泰多因子系列之一
【华泰金工林晓明团队】五因子模型A股实证研究
【华泰金工林晓明团队】红利因子的有效性研究——华泰红利指数与红利因子系列研究报告之二


人工智能
【华泰金工林晓明团队】再论时序交叉验证对抗过拟合——华泰人工智能系列之十六
【华泰金工林晓明团队】人工智能选股之卷积神经网络——华泰人工智能系列之十五

【华泰金工林晓明团队】对抗过拟合:从时序交叉验证谈起

【华泰金工林晓明团队】人工智能选股之损失函数的改进——华泰人工智能系列之十三

【华泰金工林晓明团队】人工智能选股之特征选择——华泰人工智能系列之十二
【华泰金工林晓明团队】人工智能选股之Stacking集成学习——华泰人工智能系列之十一

【华泰金工林晓明团队】宏观周期指标应用于随机森林选股——华泰人工智能系列之十
【华泰金工林晓明团队】人工智能选股之循环神经网络——华泰人工智能系列之九

【华泰金工林晓明团队】人工智能选股之全连接神经网络——华泰人工智能系列之八
【华泰金工林晓明团队】人工智能选股之Python实战——华泰人工智能系列之七

【华泰金工林晓明团队】人工智能选股之Boosting模型——华泰人工智能系列之六

【华泰金工林晓明团队】人工智能选股之随机森林模型——华泰人工智能系列之五
【华泰金工林晓明团队】人工智能选股之朴素贝叶斯模型——华泰人工智能系列之四
【华泰金工林晓明团队】人工智能选股之支持向量机模型— —华泰人工智能系列之三

【华泰金工林晓明团队】人工智能选股之广义线性模型——华泰人工智能系列之二


指数增强基金分析
【华泰金工林晓明团队】再探回归法测算基金持股仓位——华泰基金仓位分析专题报告
【华泰金工林晓明团队】酌古御今:指数增强基金收益分析
【华泰金工林晓明团队】基于回归法的基金持股仓位测算
【华泰金工林晓明团队】指数增强方法汇总及实例——量化多因子指数增强策略实证


基本面选股
【华泰金工林晓明团队】华泰价值选股之相对市盈率港股模型——相对市盈率港股通模型实证研究
【华泰金工林晓明团队】华泰价值选股之FFScore模型
【华泰金工林晓明团队】相对市盈率选股模型A股市场实证研究

【华泰金工林晓明团队】华泰价值选股之现金流因子研究——现金流因子选股策略实证研究
【华泰金工林晓明团队】华泰基本面选股之低市收率模型——小费雪选股法 A 股实证研究
【华泰金工林晓明团队】华泰基本面选股之高股息率模型之奥轩尼斯选股法A股实证研究



基金定投
【华泰金工林晓明团队】大成旗下基金2018定投策略研究
【华泰金工林晓明团队】布林带与股息率择时定投模型——基金定投系列专题研究报告之四
【华泰金工林晓明团队】基金定投3—马科维茨有效性检验

【华泰金工林晓明团队】基金定投2—投资标的与时机的选择方法

【华泰金工林晓明团队】基金定投1—分析方法与理论基础


Smartbeta
【华泰金工林晓明团队】Smartbeta在资产配置中的优势——华泰金工Smartbeta专题研究之一


其它
【华泰金工林晓明团队】A股市场及行业的农历月份效应——月份效应之二
A股市场及行业的月份效应——详解历史数据中的隐藏法则








































分享到 :
0 人收藏
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

积分:1745
帖子:350
精华:0
期权论坛 期权论坛
发布
内容

下载期权论坛手机APP