【华泰金工林晓明团队】人工智能选股之数据标注方法实证——华泰人工智能系列之十七

摘要
本文测试了多种数据标注方法以及集成模型，XGBR-Combine表现最好
将机器学习运用于多因子选股时，不同的数据标注结果(数据标签)会使得模型得出不同的训练和预测结果。本文使用随机数种子+多次测试的手段，研究对比了分类和回归、使用夏普比率作为标签、使用信息比率作为标签以及使用Calmar比率作为标签的方法，回测表现整体符合预期。最后，我们将不同数据标注方法训练的模型进行等权集成得到模型XGBR-Combine，该模型在回测中表现最为全面。
本文使用了随机数种子+多次测试的方法来验证数据标注方法的有效性
在机器学习模型的训练过程中，会有各种各样的步骤给模型带来随机性，如果本文仅对一系列数据标注方法进行单次测试，那么所得出的结果未必具有说服力。此时有必要进行多次对比测试来获得统计意义上的“确定结果”。在多次测试中，可以对模型设置不同的随机数种子，使得每次测试中模型的预测都有一定差别，最后我们统计对比模型构建策略的相应指标的分布情况，就能得到更具有说服力的结果。

本文对比了XGBoost分类和回归的测试结果，回归整体表现更好
本文对比了全A股票池中，XGBoost分类(XGBC)和回归(XGBR)。单因子回归和IC测试中，XGBR只在RankIC均值上略低于XGBC，其他指标表现都比XGBC要好。单因子分层测试的TOP组合中。XGBC在收益指标上(年化收益率、年化超额收益率)上表现更好，XGBR则在风险指标(超额收益最大回撤，Calmar比率)上表现更好。本文还构建了相对于中证500的行业、市值中性全A选股策略并进行回测，XGBR相比XGBC在信息比率上有稳定优势。在其他指标上，XGBR和XGBC的表现不相上下。整体来看，XGBoost回归的表现更好。

本文还测试了另外三种数据标注方法，回测表现整体符合预期
本文还在全A股票池中测试了另外三种数据标注方法，使用夏普比率作为标签的模型(XGBR-Sharpe)，使用信息比率作为标签的模型(XGBR-IR)以及使用Calmar比率作为标签的模型(XGBR-Calmar)。整体来看，在对应的测试中，XGBR-Sharpe比XGBR的夏普比率更高，XGBR-IR比XGBR的信息比率更高，XGBR-Calmar比XGBR的Calmar比率更高。三种数据标注方法的回测表现和它们各自所设定的学习目标相匹配，结果整体符合预期。

本文将不同数据标注方法训练的模型进行等权集成，回测表现最为全面
机器学习领域中可以采用模型等权集成的方式以充分体现不同模型的优点。我们将XGBR，XGBR-IR，XGBR-Calmar三个模型集成得到XGBR-Combine并构建了相对于中证500的行业、市值中性全A选股策略，回测结果中，XGBR-Combine综合了三个基模型的优点，在年化超额收益率(14.74%~18.22%)、信息比率(2.28~3.39)上都表现最好，在超额收益最大回撤(3.83%~8.79%)、Calmar比率(2.13~3.87)上也有不错的表现。同时，XGBR-Combine的以上4个回测指标的标准差都比较小，说明其在多次测试中受随机性的干扰程度最小，表现最为稳定。

风险提示：通过人工智能模型构建的选股策略是历史经验的总结，存在失效的可能。人工智能模型可解释程度较低，使用须谨慎。

本文研究导读
机器学习主要分为监督学习(supervised learning)和无监督学习(unsupervised learning)。而在监督学习中，如何为训练样本进行数据标注(data labeling)是一个非常重要的话题。由于数据标注的结果(数据标签)会直接作用于监督学习的目标函数(objective function)，不同的数据标注方法会使得监督学习得出不同的训练和预测结果。结合机器学习在多因子选股中的运用，本文将列出各种数据标注方法并进行系统的测试。本文将主要关注以下问题：

1. 在将机器学习运用到多因子选股中时，有哪些数据标注方法？

2. 如何验证各种数据标注方法的有效性？

3. 各种数据标注方法在选股中的测试效果如何？是否与它们各自所设定的学习目标相匹配？

4. 如何综合利用各种数据标注方法的优点以达到更好的回测效果？

数据标注简介和数据标注的方法
监督学习和数据标注
在机器学习领域，监督学习是指利用一组带标签的数据，学习从输入特征X到标签y的映射y=f(X)，然后将这种映射关系f应用到未知数据，达到预测未知数据标签的目的。其中，生成带标签数据的过程就是数据标注。监督学习研究中主要有三个不同的侧重点，图表1里左侧主要研究和对比不同监督学习模型的优劣，是本系列之前多篇报告中着重探讨的话题；图表1里中间部分主要研究输入训练集的处理，对应本系列报告《人工智能选股之特征选择》；图表1里右侧主要研究数据标注的方法，这在本系列报告《人工智能选股之损失函数的改进》中有过一定研究，本文将专门对监督学习中数据标注的方法进行深入全面的探讨。

机器学习多因子选股中的数据标注方法
由上一节的介绍可以看出，数据标注在监督学习流程中往往是一个比较简单的步骤，但由于其直接与模型的输出和目标函数相关，所以会对监督学习的结果造成较大影响。另外，数据标注方法和具体的应用领域也有很大关系，本节将介绍将机器学习应用于多因子选股时的数据标注方法。

分类和回归
《统计学习方法》中对分类和回归的定义为：
标签(y)为连续变量的预测问题是回归问题。
标签(y)为有限个离散变量的预测问题为分类问题。
在实际的回归应用中，由于数据量有限，标签y不可能严格连续，但标签y往往会有很多取值(成百上千甚至更多)，因此依然可以视为回归问题。对于分类问题，最常见的是二分类问题(y只有两种取值)，因此本文只讨论二分类问题。我们将通过一个简单的例子来形象展示分类和回归的区别。

线性回归(linear regression)是最简单常用的回归模型，可以使用它来拟合股票市盈率因子和收益率的关系。我们选取沪深300成分股2016年底的市盈率以及2017年一季度涨跌幅。对市盈率TTM取倒数，进行中位数去极值和标准化处理，得到EP因子。如图表2所示，线性回归可以较好地拟合输入特征x1(EP因子)和标签y(涨跌幅)的关系，图中的直线对应于线性回归模型y=w0+w1x1，其中系数的估计量w0=2.32，w1=3.03。在这个例子中，模型拟合的标签是股票的涨跌幅。

另一种情况是，我们并不想预测股票未来具体的涨跌幅，而是希望预测股票未来会上涨还是下跌。换言之，我们面对的是“分类”问题，而非“回归”问题。此时可以使用逻辑回归(logistic regression)，尽管其名字中包含回归二字，却是解决分类问题常用的机器学习方法。例如，我们希望用股票的市盈率预测涨跌情况，选取沪深300成分股2017年一季度的涨跌幅排名前50名和后50名的个股，计算2016年底的市盈率EP因子，将涨幅前50的个股定义为类别y=1(图表3中的红色样本)，跌幅前50的个股定义为类别y=0(图表3中的蓝色样本)。然后就可以使用下面的逻辑回归模型进行拟合。

通过极大似然估计方法求得参数w0=1.95，w1=0.36。拟合结果如图表3的曲线所示，曲线上的每个点表示某个EP因子x1对应的上涨概率P(x1)。当x1取极大的数时，上涨概率P(x1)趋向于1；当x1取极小的数时，上涨概率P(x1)趋向于0。

承接上面的例子，在图表4中，我们总结了机器学习运用于多因子选股时，回归和二分类的对比。

更多数据标注方法

在将机器学习运用于多因子选股时，除了使用股票收益率作为标签，还可以使用一些能综合体现股票收益、回撤以及波动的指标来给股票样本打标签，本文将测试以下三种数据标注方法：
1. 使用个股的夏普比率进行数据标注。假设个股在第t截面期的复权收盘价为Pt，第t+1截面期的复权收盘价为Pt+1，在这两个截面期之间的日度收益率标准差为1，则个股的夏普比率定义为下式。

为了简单起见，我们没有在上式中加入无风险收益率。该指标反映了个股的收益波动比，通过该指标给个股打标签，我们希望机器学习模型通过训练能选出具有较高收益波动比的股票。

2. 使用个股的信息比率进行数据标注。假设个股在第t截面期的复权收盘价为Pt，第t+1截面期的复权收盘价为Pt+1，业绩比较基准(本文中为中证500)的第t截面期的复权收盘价为Bt，第t+1截面期的复权收盘价为Bt+1，在这两个截面期之间个股的日度超额收益率标准差为2，则个股的信息比率定义为下式。

该指标反映了个股的超额收益和跟踪误差之比，通过该指标给个股打标签，我们希望机器学习模型通过训练能选出具有较高信息比率的股票。

3. 使用个股的Calmar比率进行数据标注。本文计算的是超额收益的Calmar比率。假设个股在第t截面期的复权收盘价为Pt，第t+1截面期的复权收盘价为Pt+1，业绩比较基准(本文中为中证500)的第t截面期的复权收盘价为Bt，第t+1截面期的复权收盘价为Bt+1，在这两个截面期之间个股的超额收益最大回撤为MaxDD，则个股的Calmar比率定义为下式。

该指标反映了个股的超额收益和超额收益最大回撤之比，通过该指标给个股打标签，我们希望机器学习模型通过训练能选出具有较高Calmar比率的股票。

如何验证数据标注方法的有效性？随机数种子+多次测试
在机器学习模型的训练过程中，会有各种各样的步骤给模型带来随机性。比如对XGBoost进行训练时，会对数据和特征进行随机采样；对神经网络进行训练时，会随机初始化网络权重。这些随机性使得模型的预测结果出现不确定性。人们为了避免这种不确定性，使得同一模型每次训练得出的结果完全相同，会设置一个固定的随机数种子(random seed)。

对于本文要对比的一系列数据标注方法来说，单次测试所得出的结果未必具有说服力。比如我们想要对比使用收益率打标签和使用夏普比率打标签的测试结果，经过单次测试之后，发现使用夏普比率的模型构建的策略夏普比率更高，然而这有可能是因为机器学习模型内部的随机性并叠加上金融市场的随机性所得出的“随机结果”，此时就有必要进行多次对比测试来获得统计意义上的“确定结果”。在多次测试中，可以对模型设置不同的随机数种子，使得每次测试中模型的预测都有一定差别，最后我们统计两种对比模型构建策略的夏普比率的分布情况，从而得到更具有说服力的结果。图表5展示了随机数种子+多次测试流程图。

不同数据标注方法训练所得模型的集成
对比多种数据标注方法训练所得模型的回测结果，不同的模型可能在不同的回测指标上有一定优势。为了充分利用不同模型的优点，模型的等权集成是一种常用的方法。本文将借鉴上一节的多次测试的思想，使用模型之间的随机组合来测试模型等权集成的效果。图表6展示了对多种数据标注方法预测结果进行集成的测试流程。

数据标注方法测试流程
测试流程

数据获取：
1)股票池：全A股。剔除ST股票，剔除每个截面期下一交易日停牌的股票，剔除上市3个月内的股票，每只股票视作一个样本。
2)回测区间：2011年1月31日至2019年2月28日。
特征提取和预处理：
1)每个自然月的最后一个交易日，计算82个因子暴露度，作为样本的原始特征，因子池如图表10和图表11所示。
2)中位数去极值：设第T期某因子在所有个股上的暴露度序列为Di，DM为该序列中位数，DM1为序列|Di-DM|的中位数，则将序列Di中所有大于DM+5DM1的数重设为DM+5DM1，将序列中所有小于DM-5DM1的数重设为DM-5DM1；
3)缺失值处理：得到新的因子暴露度序列后，将因子暴露度缺失的地方设为中信一级行业相同个股的平均值；
4)行业市值中性化：将填充缺失值后的因子暴露度对行业哑变量和取对数后的市值做线性回归，取残差作为新的因子暴露度；
5)标准化：将中性化处理后的因子暴露度序列减去其现在的均值、除以其标准差，得到一个新的近似服从N(0, 1)分布的序列。
数据标注：该步骤是本文的着重步骤，主要使用以下数据标注方法：
1)分类：每个时间截面上，对股票收益率进行降序排序，取排名前三分之一的股票标记为1，排名后三分之一的股票标记为0。
2)回归：每个月末截面上，使用标准化后的下个月股票超额收益率(相对中证500)作为标签，为了方便和分类进行对比，按标签取值进行降序排序，选取排前三分之一和后三分之一的样本。
3)夏普比率：每个月末截面上，使用标准化后的下个月股票夏普比率作为标签，为了方便和(2)中的回归进行对比，按标签取值进行降序排序，选取排前三分之一和后三分之一的样本。
4)信息比率：每个月末截面上，使用标准化后的下个月股票信息比率(相对中证500)作为标签，为了方便和(2)中的回归进行对比，按标签取值进行降序排序，选取排前三分之一和后三分之一的样本。
5)Calmar比率：每个月末截面上，使用标准化后的下个月股票Calmar比率作为标签，为了方便和(2)中的回归进行对比，按标签取值进行降序排序，选取排前三分之一和后三分之一的样本。
年度交叉验证调参：由于交叉验证调参的时间开销较大，本文采用年度交叉验证调参的方式。全体数据共分为九个阶段，如图表8所示。例如在选择2011年最优参数时，将2005-2010年共72个月数据合并作为样本内数据集；在选择第N年最优超参数时，将N-6至N-1年的72个月合并作为样本内数据。使用时序交叉验证的方式确定第N年模型的最优超参数。
月度训练模型：如图表9所示，当第N年的最优超参数确定之后，对于其中的某个月份T月来说，将T-72至T-1月的72个月合并作为样本内数据集，使用第N年的最优超参数训练模型。
样本外测试：确定最优参数后，以T月末截面期所有样本预处理后的特征作为模型的输入，得到每个样本的预测值f(x)。将预测值视作合成后的因子。
模型评价：我们以模型合成因子的单因子测试结果和构建选股策略的结果作为模型评价标准。
模型对比：对于每种数据标注方法，重复100次步骤5~7，每次训练模型设置不同的随机数种子(random seed)，形成100组测试结果，统计模型评价指标的分布情况，进行模型对比。

数据标注方法测试结果
分类和回归的对比
本节我们将对比以下两个模型：
1. XGBC：XGBoost分类模型。
2. XGBR：XGBoost回归模型。

单因子回归测试和IC测试
如果将机器学习模型的输出视为单因子，则可进行单因子测试。测试模型构建方法如下：

股票池：全A股，剔除ST股票，剔除每个截面期下一交易日停牌的股票，剔除上市3个月以内的股票。
回测区间：2011-01-31至2019-02-28。
截面期：每个月月末，用当前截面期因子值与当前截面期至下个截面期内的个股收益进行回归和计算RankIC值。
数据处理方法：对于分类模型，将模型对股票下期上涨概率的预测值视作单因子。对于回归模型，将回归预测值视作单因子。因子值为空的股票不参与测试。
回归测试中采用加权最小二乘回归(WLS)，使用个股流通市值的平方根作为权重。IC测试时对单因子进行行业市值中性。

我们使用不同的随机数种子进行了100次测试，测试所得指标的平均值如图表12所示，可以看出，XGBR模型只在RankIC均值上稍低于XGBC模型，其他指标表现都比XGBC模型要好。

图表13和图表14展示了在100次测试中，两种模型的RankIC均值和因子收益率均值的分布情况。可见，两种模型的RankIC均值分布比较接近，但是从因子收益率均值分布上看，XGBR模型完全优于XGBC模型。

单因子分层测试
依照因子值对股票进行打分，构建投资组合回测，是最直观的衡量因子优劣的手段。测试模型构建方法如下：

股票池、回测区间、截面期均与回归法相同。
换仓：在每个自然月最后一个交易日核算因子值，在下个自然月首个交易日按当日收盘价换仓，交易费用以双边千分之四计。
分层方法：因子先用中位数法去极值，然后进行市值、行业中性化处理(方法论详见上一小节)，将股票池内所有个股按因子从大到小进行排序，等分N层，每层内部的个股等权配置。当个股总数目无法被N整除时采用任一种近似方法处理均可，实际上对分层组合的回测结果影响很小。
多空组合收益计算方法：用Top组每天的收益减去Bottom组每天的收益，得到每日多空收益序列r1,r2,…,rn，则多空组合在第n天的净值等于(1+r1)(1+r2)…(1+rn)。

评价方法：全部N层组合年化收益率(观察是否单调变化)，多空组合的年化收益率、夏普比率、最大回撤、月胜率等。

我们使用不同的随机数种子进行了100次测试，分层测试指标的平均值如图表15所示，两种模型的TOP组合年化收益率、多空组合年化收益率和多空组合夏普比率都比较接近。

另外，我们详细对比了两种模型分层测试的TOP组合的表现(图表16)，两种模型表现不相上下，总体来看各项指标都比较接近。图表17和图表18展示了在100次测试中，两种模型的年化超额收益率均值和信息比率均值的分布情况。

构建策略组合及回测分析
基于XGBC和XGBR模型，我们构建了相对于中证500的行业、市值中性全A选股策略并进行回测，图表19中展示了100次测试的平均结果。图表19从左至右的各列对应不同的个股权重偏离上限。可见，XGBR相比XGBC在信息比率上有稳定优势。在其他指标上，XGBR和XGBC的表现不相上下。

按超额收益率回归和按夏普比率回归的对比
本节我们将对比以下两个模型：
1. XGBR：XGBoost回归模型，以个股相对中证500的超额收益率为标签。
2. XGBR-Sharpe：XGBoost回归模型，以个股的夏普比率为标签。

由于单因子测试中的回归测试和IC测试是对个股收益进行回归或求IC值，而XGBR-Sharpe模型是对个股夏普比率进行预测，所以对其进行回归测试和IC测试意义不大，本节将只进行单因子分层测试和构建策略组合回测，并重点关注测试中的夏普比率指标。

单因子分层测试
我们使用不同的随机数种子进行了100次测试，分层测试指标的平均值如图表22所示，XGBR-Sharpe的多空组合夏普比率更高。另外，我们详细对比了两种模型分层测试的TOP组合的表现(图表23)，XGBR-Sharpe的TOP组合夏普比率更高，分析夏普比率提升的原因，XGBR-Sharpe模型主要是在年化收益率上表现更好，在年化波动率上表现则没有优势。

图表24和图表25展示了在100次测试中，两种模型的多空组合夏普比率和TOP组合夏普比率的分布情况。

构建策略组合及回测分析
基于XGBR和XGBR-Sharpe模型，我们构建了相对于中证500的行业、市值中性全A选股策略并进行回测，图表26中展示了100次测试的平均结果。可见，XGBR-Sharpe相比XGBR在夏普比率上有比较稳定的优势。分析夏普比率提升的原因，XGBR-Sharpe模型主要是在年化收益率上表现更好，在年化波动率上则没有优势。

当个股权重偏离上限为2%时，图表27和图表28展示了在100次测试中，两种模型的年化收益率和夏普比率的分布情况。该情况下，XGBR-Sharpe的表现优于XGBR。

按超额收益率回归和按信息比率回归的对比
本节我们将对比以下两个模型：
1. XGBR：XGBoost回归模型，以个股相对中证500的超额收益率为标签。
2. XGBR-IR：XGBoost回归模型，以个股的信息比率(基准为中证500)为标签。

由于单因子测试中的回归测试和IC测试是对个股收益进行回归或求IC值，而XGBR-IR模型是对个股夏普比率进行预测，所以对其进行回归测试和IC测试意义不大。另外，单因子分层测试中所计算的信息比率的基准是全A等权组合，与XGBR-IR的标签所使用的信息比率基准(中证500)不同，因此对其进行分层测试也意义不大。所以本节只进行构建策略组合回测，并重点关注测试中的信息比率指标。

构建策略组合及回测分析
基于XGBR和XGBR-IR模型，我们构建了相对于中证500的行业、市值中性全A选股策略并进行回测，图表29中展示了100次测试的平均结果。可见，当个股权重偏离上限较大时，XGBR-IR相比XGBR在信息比率上有稳定的优势。分析信息比率提升的原因，XGBR-IR模型主要是在年化超额收益率上表现更好，而在跟踪误差上表现不如XGBR，在超额收益最大回撤上表现也不如XGBR。

当个股权重偏离上限为2%时，图表30和图表31展示了在100次测试中，两种模型的年化超额收益率和信息比率的分布情况。该情况下，XGBR-IR的表现优于XGBR。

按超额收益率回归和按Calmar比率回归的对比
本节我们将对比以下两个模型：
1. XGBR：XGBoost回归模型，以个股相对中证500的超额收益率为标签。
2. XGBR-Calmar：XGBoost回归模型，以个股的Calmar比率(基准为中证500)为标签。

由于单因子测试中的回归测试和IC测试是对个股收益进行回归或求IC值，而XGBR-Calmar模型是对个股Calmar比率进行预测，所以对其进行回归测试和IC测试意义不大。另外，单因子分层测试中所计算的Calmar的基准是全A等权组合，与XGBR-Calmar的标签所使用的Calmar比率基准(中证500)不同，因此对其进行分层测试也意义不大。所以本节只进行构建策略组合回测，并重点关注测试中的Calmar比率指标。

构建策略组合及回测分析
基于XGBR和XGBR-Calmar模型，我们构建了相对于中证500的行业、市值中性全A选股策略并进行回测，图表32中展示了100次测试的平均结果。可见，当个股权重偏离上限较大时，XGBR-Calmar相比XGBR在Calmar比率上有稳定的优势。分析Calmar比率提升的原因，XGBR-Calmar模型主要是在年化超额收益率上表现更好，在超额收益最大回撤上优势并不明显。

个股权重偏离上限为2%时，图表33和图表34展示了在100次测试中，两种模型的年化超额收益率和Calmar比率的分布情况。该情况下，XGBR-Calmar的表现优于XGBR。

不同数据标注方法所得模型集成的测试结果
本章中，我们将使用图表6中的测试流程进行模型集成的测试。在多因子Alpha模型中，信息比率和Calmar比率是两个重要的指标，我们将对以下三个模型进行集成得到模型XGBR-Combine，并构建策略组合回测。
1. XGBR：XGBoost回归模型，以相对中证500的超额收益率为标签。
2. XGBR-IR：XGBoost回归模型，以个股的信息比率(基准为中证500)为标签。
3. XGBR-Calmar：XGBoost回归模型，以个股的Calmar比率(基准为中证500)为标签。
构建策略组合及回测分析
基于上面提到的四个模型，我们构建了相对于中证500的行业、市值中性全A选股策略并进行回测，图表35中展示了100次测试的平均结果。可见，XGBR-Combine模型综合了三个基模型的优点，在年化超额收益率、信息比率上都表现最好，在超额收益最大回撤、Calmar比率上也有不错的表现。

另外，我们对比了图表35中回测指标在100次测试中的标准差，以衡量各个模型表现的稳定性，结果展示在图表36中。从图表36可以看出XGBR-Combine的4个回测指标的标准差都比较小，说明其在100次测试中受随机性的干扰程度最小，表现最为稳定。

个股权重偏离上限为2%时，图表37和图表38展示了在100次测试中，四种模型的年化超额收益率和信息比率的分布情况。从图表37和图表38也可以看出，XGBR-Combine的回测指标分布最集中，表现最稳定。

结论
在机器学习中，如何为训练样本进行数据标注是一个非常重要的话题。由于数据标注的结果(数据标签)会直接作用于监督学习的目标函数，因此不同的数据标注方法会使得监督学习得出不同的训练和预测结果。结合机器学习在多因子选股中的运用，本文列出了各种数据标注方法并进行系统的测试，得出以下结论：

在机器学习模型的训练过程中，会有各种各样的步骤给模型带来随机性，如果本文仅对一系列数据标注方法进行单次测试，那么所得出的结果未必具有说服力。此时有必要进行多次对比测试来获得统计意义上的“确定结果”。在多次测试中，可以对模型设置不同的随机数种子，使得每次测试中模型的预测都有一定差别，最后我们统计对比模型构建策略的相应指标的分布情况，就能得到更具有说服力的结果。
本文对比了全A股票池中，XGBoost分类(XGBC)和回归(XGBR)。单因子回归和IC测试中，XGBR只在RankIC均值上略低于XGBC，其他指标表现都比XGBC要好。单因子分层测试的TOP组合中。XGBC在收益指标上(年化收益率、年化超额收益率)上表现更好，XGBR则在风险指标(超额收益最大回撤，Calmar比率)上表现更好。本文还构建了相对于中证500的行业、市值中性全A选股策略并进行回测，XGBR相比XGBC在信息比率上有稳定优势。在其他指标上，XGBR和XGBC的表现不相上下。整体来看，XGBoost回归的表现更好。
本文还在全A股票池中测试了另外三种数据标注方法，使用夏普比率作为标签的模型(XGBR-Sharpe)，使用信息比率作为标签的模型(XGBR-IR)以及使用Calmar比率作为标签的模型(XGBR-Calmar)。整体来看，在对应的测试中，XGBR-Sharpe比XGBR的夏普比率更高，XGBR-IR比XGBR的信息比率更高，XGBR-Calmar比XGBR的Calmar比率更高。三种数据标注方法的回测表现和它们各自所设定的学习目标相匹配，结果整体符合预期。
机器学习领域中可以采用模型等权集成的方式以充分体现不同模型的优点。我们将XGBR，XGBR-IR，XGBR-Calmar三个模型集成得到XGBR-Combine并构建了相对于中证500的行业、市值中性全A选股策略，回测结果中，XGBR-Combine综合了三个基模型的优点，在年化超额收益率(14.74%~18.22%)、信息比率(2.28~3.39)上都表现最好，在超额收益最大回撤(3.83%~8.79%)、Calmar比率(2.13~3.87)上也有不错的表现。同时，XGBR-Combine的以上4个回测指标的标准差都比较小，说明其在多次测试中受随机性的干扰程度最小，表现最为稳定