摘要
时序交叉验证方法适用于时间序列数据,能够有效防止过拟合
交叉验证是选择模型最优超参数的重要步骤,本文关注传统交叉验证和时序交叉验证的比较。我们采用机器学习公共数据集以及全A选股数据集,分别比较两种交叉验证方法的表现。结果表明,对于时序数据,时序交叉验证方法在训练集上的表现相对较差,但是在测试集上表现更好。传统交叉验证方法面对时序数据表现出较明显的过拟合,而时序交叉验证方法能够有效防止过拟合。借助时序交叉验证的机器学习选股策略能够获得更高并且更稳定的收益。推荐投资者在选择机器学习模型超参数时,使用时序交叉验证方法。
传统交叉验证用于时序数据可能出现未来信息预测历史的“作弊”行为
交叉验证的核心思想是将全部样本划分成训练集和验证集,考察模型在两部分的表现是否接近。如果训练集的表现远优于验证集,说明模型存在过拟合的风险。根据训练集和验证集的划分方式,传统交叉验证方法可细分为简单交叉验证、K折交叉验证、留一法和留P法。当样本是时间序列时,数据存在序列相关性,不满足样本独立同分布假设。采用传统交叉验证会将未来数据划入训练集,历史数据划入验证集,进而出现用未来规律预测历史结果的“作弊”行为。时序交叉验证既能保证数据利用率,又能保留时序数据之间相互关系,适用于时序数据的调参。
从多角度比较时序交叉验证与传统K折交叉验证
从交叉验证方法使用的前提看,时序数据不满足样本独立同分布原则,违背传统K折交叉验证的前提假设。从模型选择的最优超参数角度看,时序交叉验证倾向于选择超参数“简单”的模型,体现出更低的过拟合程度。从不同基学习器的比较看,两种交叉验证的差异在逻辑回归等简单模型上体现不明显,而在XGBoost等复杂模型上体现较为明显;复杂模型更易表现出过拟合,时序交叉验证能够带来更大提升。从合成单因子分层回测以及构建策略组合回测的结果看,时序交叉验证在获取收益方面具备较大优势,在控制回撤方面具有一定优势。
时序交叉验证思想可以应用于其它量化策略的参数寻优
除机器学习模型涉及到超参数选择以外,很多量化策略也都涉及参数寻优。传统的参数寻优方法是将全部样本按时间先后分为样本内和样本外,寻找使得策略在样本内表现最好的参数,最终应用于样本外。未来可以借鉴时序交叉验证的思路,将样本内数据按时序切分为若干折,寻找使得策略在多个验证集平均表现最好的参数,从而提升策略的稳定性,避免过拟合的发生。
风险提示:时序交叉验证方法是对传统模型调参方法的改进,高度依赖基学习器表现。该方法是对历史投资规律的挖掘,若未来市场投资环境发生变化导致基学习器失效,则该方法存在失效的可能。时序交叉验证方法存在一定欠拟合风险。
本文导言
对人工智能及机器学习的广泛诟病之一在于过拟合:模型通常能完美地拟合样本内数据,但是对样本外数据集的泛化能力较弱。在投资领域,一方面,投资者在阅读机器学习相关研究报告的过程中,面对一条漂亮的回测净值曲线,往往会持怀疑态度,认为历史上的优秀表现未必能延续。另一方面,量化策略的研究者在调试机器学习模型的过程中,也往往会陷入过度调参的怪圈,刻意追求好的回测结果,而忽视了对参数泛化能力的考量。这些因素客观上妨碍了机器学习模型在投资领域的应用。
事实上,机器学习领域的研究者始终致力于防范过拟合的发生。首先,增加样本数量能够有效提升模型的泛化能力。其次,很多机器学习算法本身就具备避免过拟合的能力,例如损失函数中正则化项的设置,包括随机森林和XGBoost在内的决策树类模型中的行采样、列采样和剪枝算法,神经网络方法中的下采样层和Dropout层的设计等。再次,在模型选择环节,借助交叉验证确定模型超参数也是防范过拟合的有效途径。
传统的交叉验证方法包括简单交叉验证、K折交叉验证、留一法和留P法。这些方法的基本思想和共同点在于,假设所有样本服从独立同分布,选择其中一部分作为训练集用以训练模型,剩下一部分作为验证集用以评估模型的真实性能。上述交叉验证方法在机器学习领域被广泛应用。然而,金融领域有别于其它领域的一个重要特点是样本的时序特性,一段时间区间内的样本不一定满足独立同分布(大部分时候不满足),这与传统交叉验证的假设相违背。
基于传统交叉验证在处理时序数据上的缺陷,研究者提出一种新的交叉验证方法:时序交叉验证。其基本思想是,采用时间靠前的样本作为训练集,时间靠后的样本作为验证集。Tashman(2000)、Varma和Simon(2006)、Bergmeir和Benitez(2012)等研究表明,时序交叉验证方法在时序数据上的表现优于传统交叉验证方法。然而,时序交叉验证在投资领域的效果尚没有被系统性地测试。
本文的关注点在于传统交叉验证和时序交叉验证的比较。我们采用机器学习公共数据集以及全A选股数据集,分别比较两种交叉验证方法的表现。结果表明,对于时序数据,相比于传统交叉验证方法,时序交叉验证方法在训练集上的表现相对较差,但是在测试集上的表现更好。传统交叉验证方法面对时序数据表现出较明显的过拟合,而时序交叉验证方法的过拟合程度相对较低。借助时序交叉验证的机器学习选股策略能够获得更高并且更稳定的收益。我们推荐投资者在选择机器学习模型超参数时,使用时序交叉验证方法。
过拟合问题与交叉验证
人们在使用机器学习模型时,普遍担心的一个问题是过拟合:模型在样本内数据集的表现优异,但是在样本外数据集的表现出现大幅下降。导致过拟合现象的可能原因在于模型超参数的选取不当。交叉验证是一种常用的模型评价方法,广泛应用于模型超参数的选择。传统交叉验证方法包括简单交叉验证、K折交叉验证、留一法和留P法,其基本假设是样本服从独立同分布。时间序列样本往往不满足独立同分布假设,此时时序交叉验证是更好的选择。下面我们将围绕和时序交叉验证相关的几个重要概念进行介绍。
模型的参数和超参数
参数(parameter)和超参数(hyperparameter)在文献中常被混为一谈。研究者经常提到的“调参”,实际上是调整超参数。为了防止语言上的混淆,我们首先对两者进行界定。
参数是模型的内部变量,是模型通过学习可以确定的参数。以简单的一元线性回归模型 = + 为例,斜率k 和截距b 是该模型的参数。支持向量机模型的支持向量,神经网络模
型的神经元连接权值都是模型的参数。对于决策树类的模型而言,每一步分裂的规则也属于模型参数的范畴。
超参数是模型的外部变量,是使用者用来确定模型的参数。假设我们希望采用回归模型对一组自变量x 和因变量y 进行拟合,究竟使用线性(一次)模型 = + 、二次模型=1^2 + 2 + 、三次模型 = 1^3 + 2^2 + 3 + 或者更高次的回归模型,这里的多项式次数就是模型的超参数。下图展示了对回归模型中参数和超参数的辨析。
支持向量机模型中核函数类型、惩罚系数等,随机森林模型的树棵数、最大特征数、剪枝参数等,XGBoost模型的学习率、最大树深度、行采样比例等、神经网络模型的网络层数、神经元个数、激活函数类型等,这些都属于模型的超参数。
模型的参数可以从训练集学习到,模型的超参数无法从训练集中直接学习到。模型的超参数应如何学习?在解答这一问题之前,首先要介绍模型超参数选择不当导致的问题——欠拟合和过拟合。
欠拟合和过拟合
人们构建和使用机器学习模型时,总是希望模型能够很好地拟合真实数据。“很好地拟合”意味着模型和真实数据的误差较小。误差在统计学习领域的含义较为丰富。对于一般的回
归问题,我们通常使用均方误差(mean squared errorMSE)来衡量模型拟合程度的优劣。假设代表第条样本的真实值,代表模型对第条样本的预测值,那么均方误差可以
表示为:
从数学期望的角度看:
均方误差可以分解为方差(variance)和偏差(bias):
等式右侧第一项方差代表预测值自身的变异性,第二项偏差代表预测值和真实值的整体偏离程度。下图的打靶图形象地说明了两者的区别,小的方差代表射手射得稳,小的偏差代表射手瞄得准。
进一步看,第一项方差代表我们使用不同训练集时模型表现的差异。由于模型的构建通常和训练集的统计性质有关,不同的训练集会导致模型出现差异。如果某个机器学习方法得到的模型具有较大的方差,训练集只要有少许变化,模型会有很大的改变。复杂的模型一般具有更大的方差。
第二项偏差代表实际模型与理想模型的差别。例如线性模型是最常用的模型之一,而真实世界往往是非常复杂的,当我们用线性模型这样的简单模型去解释世界时,很可能会出现问题。如果我们用复杂度为2的线性模型(包含截距和斜率两个参数)拟合一个非线性模型(模型复杂度远大于2),将产生较大的均方误差,其中很大一部分来源于偏差,这种情况称为欠拟合(underfitting)。当我们不断增加模型的复杂程度,模型的均方误差不断下降,整体表现逐渐提升,主要原因是偏差逐渐下降,说明模型更加符合真实的情况。然而随着模型的复杂程度进一步增加,可以发现样本差异导致的方差急剧上升,说明复杂的模型更多地把握住了属于训练样本独有的特性,而非数据的共性,这种情况称为过拟合(overfitting)。均方误差、方差和偏差随模型复杂度的变化关系如下图所示。
机器学习的模型比较环节是一个不断调整模型超参数,最终确定最优超参数的过程。在调参的过程中,模型总是会更好地拟合训练集,类似于上图复杂度逐渐增大的情形。相对于欠拟合来说,此时我们更需要避免的情况是过拟合,即模型的偏差较小而方差过大。通俗地说,过拟合是指模型“记住”了训练样本对应的正确答案,但模型不适用于样本外的数据。
我们再以一个例子展示欠拟合、正常拟合和过拟合三种情况。如下图所示,我们到底用什么形状的边界来划分两个类别的样本?简单的模型只有比较少的参数。如左图的直线,只有两个自由参数。增加参数数量可以让模型学会更复杂的关系。如中间图的二次曲线,包含三个自由参数;右图的高次函数,包含更多自由参数。参数越多,训练样本的错误率就越低。另一方面,更多的参数也让模型记住了更多训练数据特有的特征和噪音,而非挖掘出总体的信号,因此更容易产生过拟合。
交叉验证
避免过拟合的重要方法之一是进行交叉验证(cross-validation)。英国统计学家Mervyn Stone和美国统计学家Seymour Geisser是交叉验证理论的先驱。交叉验证理论并非仅针对机器学习模型,而是针对任何统计模型。Stone和Geisser在1974年分别独立地提出,在评价某个统计模型的表现时,应使用在估计模型环节未使用过的数据。随后Devijver Pierre(1982)、Kohavi Ron(1995)等将交叉验证的思想引入模式识别以及机器学习,在评价机器学习模型表现时,使用不曾在训练环节出现过的样本进行验证。如果模型在验证时性能和训练时大致相同,那么就可以确信模型真的“学会”了如何发现数据中的一般规律,而不是“记住”训练样本。这和学生考试的情形类似,要想考察学生是否掌握了某个知识点,不能使用课堂上讲过的“例题”,而应当使用相似的“习题”。
交叉验证的核心思想是先将全部样本划分成两部分,一部分用来训练模型,称为训练集;另外一部分用来验证模型,称为验证集。随后考察模型在训练集和验证集的表现是否接近。如果两者接近,说明模型具备较好的预测性能;如果训练集的表现远优于验证集,说明模型存在过拟合的风险。当我们需要对不同超参数设置下的多个模型进行比较时,可以考察模型在验证集的表现,选择验证集表现最优的那组超参数作为最终模型的超参数,这一过程称为调参(parameter tuning)。虽然名为“调参”,本质上是“调超参”。
根据训练集和验证集的划分方式,交叉验证方法又可以细分为简单交叉验证、K折交叉验证、留一法、留P法和时序交叉验证。
简单交叉验证
对于训练集和验证集最简单的划分方法是从总样本中随机选取一定比例(如15%)的样本作为验证集,如下图所示。这种方法称为简单交叉验证,也称为留出法交叉验证(hold-out cross-validation)。其优点在于只需要训练一次模型,速度较快。缺点一是只有一部分数据从未参与训练,可能削弱模型的准确性,在极端情况下,当验证集中数据本身就是整体数据的“噪点”时,模型的准确度将会大大降低;二是最终的模型评价结果可能受到训练集和验证集划分过程中的随机因素干扰。
K折交叉验证
针对上述简单交叉验证的缺陷,研究者提出K折交互验证(K-fold cross-validation)的方法,随机将全体样本分为K个部分(K在3~20之间),每次用其中的一部分作为验证集,其余部分作为训练集。重复K次,直到所有部分都被验证过。下图展示了5折交互验证的过程,将全体样本随机划分成5个不重叠的部分,每次用4/5作为训练集(粉色部分),其余1/5部分作为验证集(灰色部分)。最终将得到5个验证集的均方误差(或其它损失函数形式),取均值作为验证集的平均表现。
留一法和留P法
除了将样本分成K个部分,还可以每次取一个固定数目的样本作为验证集。假设样本量为N,如果每次取一个样本验证,把其余样本用来训练,重复N次,这种方法称为留一法交叉验证(leave-one-out cross-validation,LOOCV)。还可以每次取P个样本验证,重复C(N,P)次,这种方法称为留P法(leave-p-out cross-validation,LPOCV)。留一法和留P法适用于样本量较小的情形。当样本量较大时,上述两种方法所需的重复次数较大,运算速度相对较慢,因此通常不采用留一法和留P法,而是使用K折交叉验证。
时序交叉验证
以上四种传统交叉验证方法成立的前提是样本服从独立同分布。独立是指样本之间不存在相关性,从一条样本无法推知另一条样本的取值;同分布是指包括训练集和验证集在内的全部样本需取自同一分布。当样本是时间序列时,数据随时间演进的过程生成,可能包含周期性、过去和未来数据间相互关系等信息,并不满足交叉验证中数据独立同分布的基本假设。此时如果依然采用传统交叉验证方法,可能会将未来时刻的数据划入训练集,历史时刻的数据划入验证集,进而出现用未来规律预测历史结果的“作弊”行为。因此需要一种既能保证数据利用率,又能保留时序数据之间相互关系的交叉验证方法,这就是时序交叉验证方法(time-series cross-validation),如下图所示。
我们以上图为例说明时序交叉验证方法。假设样本时间跨度为10个月,采用5折时序交叉验证,那么首先将样本等分成5个部分。以第1~2月数据作为训练集,第3~4月作为验证集,进行第1次验证。再以第1~4月数据作为训练集,第5~6月为验证集,进行第2次验证。以此类推,第4次验证以第1~8月数据作为训练集,第9~10月作为验证集。再将总共4次验证的模型评价指标取平均数。时序交叉验证避免了使用未来信息的可能,对于时序数据的机器学习而言是较为合理的选择。
Tashman(2000)、Varma和Simon(2006)和Bergmeir和Benitez(2012)等研究表明,时序交叉验证方法在时序数据上的表现优于传统交叉验证方法。时序特性是金融数据的典型特征,然而时序交叉验证在投资领域的效果尚没有被系统性地测试。本文将对比传统交叉验证方法(以K折交叉验证为代表)和时序交叉验证方法,在不同领域、不同类型数据上的表现。测试所采用的两大类数据集分别为:机器学习公共数据集、全A选股数据集。针对每一类数据集,我们将对数据构成、测试方法和测试结果予以介绍。
时序交叉验证应用于机器学习公共数据集
数据集
本章测试所采用的数据集均来自于加州大学尔湾分校的机器学习公共数据库(https://archive.ics.uci.edu/ml/datasets.html)。截止2018年11月,该数据库共搜集450余组机器学习数据集。我们从中选取两组时间序列数据和一组非时间序列数据,比较传统K折交叉验证方法与时序交叉验证方法在三组数据集上的表现。数据集基本信息如下表所示。注意到下表内实际样本内数据量和实际测试集数据量之和小于总数据量,原因在于实际使用时去除了部分包含缺失值的样本。
北京地区PM2.5数据集
该数据集由北京大学陈松蹊等人提供,研究者希望通过包括露点、气温、气压、风向、累积风速、累积降雪天数、累积降雨天数在内共7项气象指标,预测北京地区PM2.5浓度。该数据集的特征为小时频的气象指标,其中风向为类别变量,其余6项为连续变量。由于部分机器学习方法不支持类别变量,我们舍弃风向特征,仅使用其余6项特征。该数据集的原始标签PM2.5浓度为连续型变量。实际测试中,我们将PM2.5低于75的样本标记为正例,PM2.5大于等于75的样本标记为反例,将原先的回归问题转换为分类问题。样本内数据(包含训练集和验证集)时间区间为2010年1月2日0时至2012年12月31日23时,测试集数据时间区间为2013年1月1日0时至2014年12月31日23时。
图表8展示了气温和累积风速两项特征在部分时间区间内的变化情况。两项特征具有明显的时序特性,为了定量说明特征不满足独立同分布原则中的独立性,我们计算特征的滞后k期自相关系数。假设广义平稳过程Xt的均值为μ,方差为σ^2,则该随机过程滞后k期的自相关系数为:
白噪声(满足独立同分布)的自相关系数为0;随机过程自相关系数绝对值越大,代表序列相关性越强。图表9展示了气温和累积风速两项特征的滞后0~15期自相关系数。两项特征表现出较强的序列相关性,不满足传统交叉验证的样本独立同分布假设。
办公楼监控管理数据集
该数据集由比利时蒙斯大学的Luis Candanedo等人提供,研究者希望采用功耗较小的传感器代替摄像机,利用房间温度、相对湿度、绝对湿度、亮度、二氧化碳浓度5个指标监控办公室是否有人,以便调节房间空调与照明,实现办公楼节能的效果。该数据集的特征为各类传感器每分钟记录到的读数,标签为该时刻办公室是否有人。样本内数据时间区间为2015年2月4日17时至2015年2月10日9时,测试集数据时间区间为2015年2月11日15时至2015年2月18日9时。对该数据集的特征进行自相关分析,同样观察到较强的序列相关性,这里不再单独作图说明。
银行电话营销数据集
该数据集由里斯本大学的Sergio Mono等人提供,研究者希望通过银行电话营销业务的客户信息,预测银行能否将定期存款产品成功推销给客户。该数据集的特征为每位客户的年龄、职业、婚姻状况、教育背景等个人信息,以及此前电话营销的沟通次数、时间间隔、成功与否等信息。我们从全部特征中选取5项连续型变量作为实际使用的特征。该数据集不包含时序特性,我们按照近似6:4的比例随机切分样本内数据集和测试集。对该数据集各项特征进行自相关分析,观察不到序列相关性,这里不再单独作图说明。
机器学习方法
对于上述三种数据集,我们分别采用六种机器学习方法:逻辑回归、线性SVM、高斯核SVM、决策树、随机森林、XGBoost。其中逻辑回归、线性SVM模型相对简单,拟合能力不强,过拟合风险相对较低;高斯核SVM、决策树、随机森林、XGBoost模型相对复杂,拟合能力较强,过拟合风险相对较高。
样本内数据集和测试集的划分、特征和标签提取环节前文已做介绍,这里不再赘述。由于特征量纲和取值范围不一致,我们对所有特征进行标准化处理,转换为均值为0、标准差为1的标准正态分布。
K折交叉验证和时序交叉验证均为10折。六种机器学习模型包含的超参数个数和调参范围不尽相同。我们采用网格搜索方法进行超参数选择。以XGBoost为例,学习速率包含[0.01,0.05,0.1,0.15,0.2]五种可能取值,最大树深包含[3,5,10,15]四种可能取值,行采样比例包含[0.7,0.75,0.8,…,1]七种可能取值,那么三项超参数全部可能的组合数为5×4×7=140种。计算每一种超参数组合下的验证集平均正确率。选择正确率最高的一组超参数组合作为最终的模型超参数,以完整的样本内数据集作为训练集,先训练最优模型,再对测试集进行预测。以测试集正确率、AUC指标评价模型优劣。由于网格搜索及交叉验证方法运算量相对较大,我们统计了每组超参数训练时长,衡量交叉验证方法的时间开销。
六种机器学习模型的超参数和调参范围如下表所示。
K折与时序交叉验证的结果及比较
时间序列数据
首先我们展示北京地区PM2.5数据集的分析结果。对于全部六种机器学习模型,K折交叉验证的训练时长约为时序交叉验证的2倍(注意图表11为对数坐标轴)。同时,K折交叉验证的样本内正确率整体高于时序交叉验证。然而,时序交叉验证的测试集正确率及AUC高于K折交叉验证。两种交叉验证方法测试集正确率及AUC的差距在复杂机器学习方法(高斯核SVM、决策树、随机森林、XGBoost)上尤为明显,而在简单机器学习方法(逻辑回归、线性SVM)上相差不大。
换言之,将复杂机器学习方法应用于时间序列数据时,传统K折交叉验证表现出一定的过拟合倾向;而时序交叉验证的过拟合程度较低,泛化能力较强。对于简单机器学习方法而言,由于模型本身拟合能力不强,K折交叉验证和时序交叉验证的表现接近。此外,时序交叉验证在时间开销上也具有一定优势。
进而我们展示办公楼监控管理数据集的分析结果。和PM2.5数据集结果类似,K折交叉验证的训练集正确率更高,而时序交叉验证在测试集上的表现更好。
非时间序列数据
最后我们展示银行电话营销数据集的分析结果。从时间开销的角度看,时序交叉验证具备一定优势。从样本内与测试集正确率的角度看,K折交叉验证和时序交叉验证表现整体较为接近。对于SVM模型,时序交叉验证的测试集表现稍好;对于随机森林和XGBoost两类决策树模型的扩展,K折交叉验证的测试集表现稍好。总的来看,两种交叉验证方法在应用于非时间序列数据时,没有表现出明显差异。
小结
我们将两种交叉验证方法应用于机器学习公开数据库,通过对比分析,得到如下结论:
1. 当数据为时间序列,模型为复杂学习器时,K折交叉验证表现出过拟合,时序交叉验证在测试集的表现优于K折交叉验证。
2. 当数据为时间序列,模型为简单学习器时,两种交叉验证方法整体表现接近,时序交叉验证稍占优。
3. 当数据为非时间序列时,两种交叉验证方法表现没有明显差异。
时序交叉验证应用于全A选股数据集
通过比较两种交叉验证方法在机器学习公开数据集上的表现,我们发现当数据具有时序特性时,采用时序交叉验证方法能够有效避免过拟合。上述规律在全A选股问题上是否仍然成立?我们将在华泰人工智能多因子选股系列研究的基础上,从以下多个方面比较两种交叉验证方法:
1. 从交叉验证方法使用的前提假设看,因子数据是否满足独立同分布,是否具备序列相关性?
2. 从交叉验证选取的最优超参数看,时序交叉验证是否选择了更“简单”的模型?
3. 从模型性能的角度看,时序交叉验证是否能够避免过拟合?其测试集正确率相比传统K折交叉验证是否更高,样本内正确率是否相对较低?
4. 从合成单因子分层回测与构建策略组合回测看,时序交叉验证是否具备优势?
人工智能选股模型测试流程
本文选用逻辑回归和XGBoost作为基学习器,两者分别作为简单模型和复杂模型的代表。测试流程包含如下步骤:
1. 数据获取:
a) 股票池:全A股。剔除ST股票,剔除每个截面期下一交易日停牌的股票,剔除上市3个月内的股票,每只股票视作一个样本。
a) 回测区间:2011年1月31日至2018年9月28日。
2. 特征和标签提取:每个自然月的最后一个交易日,计算之前报告里的70个因子暴露度,作为样本的原始特征,因子池如下表所示。计算下一整个自然月的个股超额收益(以沪深300指数为基准),在每个月末截面期,选取下月收益排名前30%的股票作为正例(y = 1),后30%的股票作为负例(y = -1),作为样本的标签。
3. 特征预处理:
a) 中位数去极值:设第T期某因子在所有个股上的暴露度序列为,为该序列中位数,1为序列| |的中位数,则将序列中所有大于 + 51的数重设为 + 51,将序列中所有小于 51的数重设为 51;
b) 缺失值处理:得到新的因子暴露度序列后,将因子暴露度缺失的地方设为中信一级行业相同个股的平均值;
c) 行业市值中性化:将填充缺失值后的因子暴露度对行业哑变量和取对数后的市值做线性回归,取残差作为新的因子暴露度;
d) 标准化:将中性化处理后的因子暴露度序列减去其现在的均值、除以其标准差,得到一个新的近似服从N(0, 1)分布的序列
4. 滚动训练集和验证集的合成:由于月度滚动训练模型的时间开销较大,本文采用年度滚动训练方式,全体样本内外数据共分为八个阶段,如下图所示。例如预测2011年时,将2005-2010年共72个月数据合并作为样本内数据集;预测T年时,将T-6至T-1年的72个月合并作为样本内数据。根据不同的交叉验证方法(K折参考图表5,时序参考图表6),划分训练集和验证集。
5. 样本内训练:使用逻辑回归和XGBoost基学习器对训练集进行训练。
6. 交叉验证调参:对全部超参数组合进行网格搜索,选择验证集平均AUC最高的一组超参数作为模型最终的超参数。不同交叉验证方法可能得到不同的最优超参数。超参数设置和调参范围如下表所示。
7. 样本外测试:确定最优超参数后,以T月末截面期所有样本预处理后的特征作为模型的输入,得到每个样本的预测值f(x)。将预测值视作合成后的因子,进行单因子分层回测,回测方法和之前的单因子测试报告相同。
8. 模型评价:我们以分层回测的结果作为模型筛选标准。我们还将给出测试集的正确率、AUC等衡量模型性能的指标。
K折与时序交叉验证的结果及比较
因子的时序特性
传统交叉验证的使用前提是样本满足独立同分布。时序交叉验证是针对样本不满足独立同分布时的改进方法。因子数据是否满足独立同分布?我们仍然参考自相关系数的概念,计算邻近截面期因子的相关系数,考察因子是否具备序列相关性。
对于每个因子,我们计算T月末截面期及T-k月末截面期因子的Pearson相关,作为该因子滞后k期相关系数。下图展示了EP、市值、return_1m(1个月反转)因子滞后1期和滞后1~6期相关系数,以及全部因子的均值。市值因子具有强序列相关性,大多数时期滞后1~6期相关系数高于0.9;以EP为代表的基本面类因子同样具有较强的序列相关性,每年4月末年报发布期会出现短暂下降。以return_1m为代表的价量类因子序列相关性相比于基本面类因子而言较低,但仍然稳定大于0。总的来看,因子数据具备较强序列相关性,不满足传统交叉验证的前提假设。
模型最优超参数
上表展示了逻辑回归及XGBoost历年滚动训练得到的最优超参数。
对于逻辑回归的正则化项系数C(实际在scikit-learn库里为正则化系数的倒数),时序交叉验证得到的超参数值小于K折交叉验证。C值越小,对正则化项的惩罚越大,模型的拟合能力越弱而泛化能力越强。换言之,时序交叉验证选出的逻辑回归模型更可能出现欠拟合,更不容易出现过拟合。
对于XGBoost的三项超参数,和K折交叉验证相比,时序交叉验证得到的最大树深度更小,行采样比例更低,学习速率相同。最大树深越小,行采样比例越低,模型的拟合能力越弱而泛化能力越强。换言之,时序交叉验证选出的XGBoost模型更可能出现欠拟合,更不容易出现过拟合。
机器学习模型性能
两种交叉验证方法历年滚动训练的样本内正确率如下图所示。对于逻辑回归模型,两种方法的样本内正确率接近,K折交叉验证略高,但不超过0.5%。对于XGBoost模型,K折交叉验证的样本内正确率在90%左右,时序交叉验证的样本内正确率在60%左右。注意到全A选股问题大部分月份的测试集正确率在50%至60%之间,我们认为K折交叉验证应用于XGBoost模型时出现了明显的过拟合。
两种交叉验证方法逐月测试集正确率如下图所示。无论是逻辑回归还是XGBoost模型,两种交叉验证方法的测试集正确率整体来看都较为接近。计算每个月份时序交叉验证与K折交叉验证正确率之差,我们发现差值大于0的月份占比相对较多,表明大多数月份时序交叉验证在预测集上表现优于K折交叉验证。
我们对时序交叉验证与K折交叉验证正确率(及AUC)之差按月份进行累加,结果如下图所示。从长期来看,时序交叉验证的正确率及AUC均优于K折交叉验证。对于逻辑回归模型,时序交叉验证的优势主要体现在2015至2017年。对于XGBoost模型,除2017年两种模型基本持平外,其余时间段时序交叉验证均稳定优于K折交叉验证。
下表展示了两种交叉验证方法模型性能详细结果。
如果将模型的输出视为单因子,则可以对该单因子进行 RankIC 值分析。从RankIC均值来看,无论是逻辑回归还是XGBoost基学习器,时序交叉验证均优于K折交叉验证。对于逻辑回归模型,时序交叉验证在2015年后展现出优势;对于XGBoost模型,时序交叉验证的优势较为稳定
单因子分层回测
依照因子值对股票进行打分,构建投资组合回测,是最直观的衡量指标优劣的手段。测试模型构建方法如下:
1. 股票池:全A股,剔除ST股票,剔除每个截面期下一交易日停牌的股票,剔除上市3个月以内的股票。
2. 回溯区间:2011-01-31至2018-09-28。
3. 换仓期:在每个自然月最后一个交易日核算因子值,在下个自然月首个交易日按当日收盘价换仓。
4. 数据处理方法:将机器学习模型对股票下期上涨概率的预测值视作单因子,因子值为空的股票不参与分层。
5. 分层方法:在每个一级行业内部对所有个股按因子大小进行排序,每个行业内均分成N个分层组合。如下图所示,黄色方块代表各行业内个股初始权重,可以相等也可以不等(我们直接取相等权重进行测试),分层具体操作方法为N等分行业内个股权重累加值,例如图示行业1中,5只个股初始权重相等(不妨设每只个股权重为0.2),假设我们欲分成3层,则分层组合1在权重累加值1/3处截断,即分层组合1包含个股1和个股2,它们的权重配比为0.2:(1/3-0.2)=3:2,同样推理,分层组合2包含个股2、3、4,配比为(0.4-1/3):0.2:(2/3-0.6)=1:3:1,分层组合4包含个股4、5,配比为2:3。以上方法是用来计算各个一级行业内部个股权重配比的,行业间权重配比与基准组合(我们使用沪深300)相同,也即行业中性。
6. 评价方法:回测年化收益率、夏普比率、信息比率、最大回撤、胜率等。
这里我们将展示时序交叉验证应用于XGBoost模型的分层测试结果。下图是分五层组合回测绩效分析表(20110131~20180928)。其中组合1~组合5为按该因子从小到大排序构造的行业中性的分层组合。基准组合为行业中性的等权组合,具体来说就是将组合1~组合5合并,一级行业内部个股等权配置,行业权重按当期沪深300行业权重配置。多空组合是在假设所有个股可以卖空的基础上,每月调仓时买入组合1,卖空组合5。回测模型在每个自然月最后一个交易日核算因子值,在下个自然月首个交易日按当日收盘价调仓。
下面四个图依次为:
1. 分五层组合回测净值图。按前面说明的回测方法计算组合1~组合5、基准组合的净值,与沪深300、中证500净值对比作图。
2. 分五层组合回测,用组合1~组合5的净值除以基准组合净值的示意图。可以更清晰地展示各层组合在不同时期的效果。
3. 组合1相对沪深300月超额收益分布直方图。该直方图以[-0.5%,0.5%]为中心区间,向正负无穷方向保持组距为1%延伸,在正负两个方向上均延伸到最后一个频数不为零的组为止(即维持组距一致,组数是根据样本情况自适应调整的)。
4. 分五层时的多空组合收益图。再重复一下,多空组合是买入组合1、卖空组合5(月度调仓)的一个资产组合。多空组合收益率是由组合1的净值除以组合5的净值近似核算的。
我们将两种交叉验证方法应用于逻辑回归以及XGBoost的单因子分层回测多空组合表现整合到下表(注意多空组合年化波动率、最大回撤的数值越小,色阶越偏红)。无论是逻辑回归还是XGBoost,相比于传统K折交叉验证,时序交叉验证都具有更高的年化收益率、更小的最大回撤、更高的Calmar比率以及更高的年化波动率。时序交叉验证对于复杂模型XGBoost的提升更明显,Calmar比率提升77%,年化收益率提升22%,夏普比率提升14%。时序交叉验证对于简单模型逻辑回归的提升相对不明显。
构建策略组合及回测分析
基于两种交叉验证方法,我们构建了行业、市值中性全A选股策略并进行回测。首先考察基学习器为逻辑回归的情形,如下表所示(注意超额收益最大回撤的数值越小,色阶越偏红)。当行业市值中性基准为沪深300时,相比于传统K折交叉验证,时序交叉验证在年化超额收益率、超额收益最大回撤、信息比率、Calmar比率上稍有优势。当行业市值中性基准为中证500时,两种交叉验证方法没有明显差异。
其次考察基学习器为XGBoost的情形。无论行业市值中性基准选取沪深300还是中证500,相比于传统K折交叉验证,时序交叉验证在年化超额收益率、信息比率上都具备明显优势。当行业市值中性基准为沪深300时,时序交叉验证在超额收益最大回撤、Calmar比率上同样具有优势。当行业市值中性基准为中证500时,时序交叉验证在控制回撤上无优势。
我们有选择性地展示两个策略的超额收益表现,如下图所示。
小结
我们将两种交叉验证方法应用于全A选股,通过对比分析,得到如下结论:
1. 从交叉验证方法使用的前提假设看,因子数据具备较强的序列相关性,不满足传统交叉验证所需要的样本独立同分布原则。
2. 从交叉验证选取的最优超参数看,相比传统K折交叉验证,时序交叉验证得到的逻辑回归模型正则化项系数C更小,XGBoost模型树深度和行采样比例更低,表明时序交叉验证选择了更“简单”的模型,更不容易出现过拟合。
3. 从模型性能的角度看,时序交叉验证方法的测试集正确率、AUC和RankIC值更高,样本内正确率更低,表明时序交叉验证的过拟合程度较低,而K折交叉验证表现出明显的过拟合。
4. 从合成单因子分层回测及构建策略组合回测看,对于简单的逻辑回归模型,时序交叉验证与K折交叉验证表现接近;对于复杂的XGBoost模型,时序交叉验证具备明显优势。
总结和展望
金融市场远比我们想象的复杂。人们在传统机器学习领域实践所积累的经验和认知,切换到金融市场里未必如此理所当然。在本文的研究过程中,对于传统K折交叉验证所表现出的相对较高的过拟合程度,是我们始料未及的。本研究探讨了传统机器学习技术应用于金融市场时可能遇到的问题和解决方法,从方法论的层面拓展了我们对机器学习技术的理解。
通过对两种交叉验证方法的多角度比较,我们得到以下重要结论:
1. 无论是对于机器学习公开数据库的时序数据集,还是对于真实全A选股数据集,时序交叉验证相比于K折交叉验证的样本内表现相对较差,测试集表现更好,更倾向于选择超参数“简单”的模型,体现出更低的过拟合程度。
2. 时序与K折交叉验证的差异在逻辑回归等简单模型上体现不明显,而在XGBoost等复杂模型上体现较为明显。复杂模型更易表现出过拟合,时序交叉验证能够带来更大提升。
3. 合成单因子分层回测以及构建策略组合回测表明,时序交叉验证在获取收益方面具备明显优势,在控制回撤方面具有一定优势。
本研究存在以下的不足和改进之处:
1. 样本内数据集的时间长度为72个月,在进行10折切分时,会出现同一月份数据分属不同“折”的情况,相当于仍有少数个别月份的数据既出现在训练集又出现验证集,违背了时序交叉验证的本意。当样本内数据集为60个月时进行10折时序交叉验证,或者当样本内数据集为72个月时进行12折时序交叉验证,可能更为合理。
2. 理论上,时序交叉验证更不容易发生过拟合,那么在2014年底以及2017年的极端行情下,模型表现应更好,回撤也应更小。然而实际上,时序交叉验证得到的模型在极端行情下同样表现出一定回撤。回撤与过拟合的关系可能比我们此前所理解的更为复杂。要回答这一问题,可能需要深入分析极端行情下模型的具体结构以及持仓情况,从而了解时序交叉验证出现回撤的真实原因。
3. 关于时序交叉验证为何在处理时序数据上优于K折交叉验证,在我们所阅读的文献范围内,暂时未找到理论上的推导证明,多数研究仅从实证的角度说明。未来如能从理论上论证时序交叉验证能够避免时序数据机器学习的过拟合,将是对本文很好的补充。
未来的研究方向包括以下几方面:
1. 除了机器学习模型涉及到超参数选择以外,很多量化策略也都涉及参数寻优。即使如简单的布林带择时模型,策略表现也高度依赖于布林带宽度、移动平均时间窗的设定。传统的参数寻优方法是将全部样本按时间先后分为样本内和样本外,寻找使得策略在样本内表现最好的参数,最终应用于样本外,类似于机器学习里的简单交叉验证。我们可以借鉴时序交叉验证的思路,将样本内数据按时序切分为若干折,寻找使得策略在多个验证集平均表现最好的参数,从而提升策略的稳定性,避免过拟合的发生。未来我们将探讨时序交叉验证思想在量化择时等领域的应用。
2. 目前我们采用网格搜索方法进行调参,网格搜索本质上属于穷举式的搜索,优点是更易找到全局最优解,缺点是时间开销较大。除了网格搜索方法外,遗传算法等其它优化算法也常用于机器学习模型调参,未来我们将对这些方法进行尝试探索。
3. 如何避免过拟合是机器学习的核心问题,本文仅就时序交叉验证一种方法进行探讨。未来我们将介绍和测试更多防范过拟合的方法,如引入Dropout、引入噪声、提前终止学习(early stopping)、学习器组合和集成等。我们希望澄清一部分投资者关于“机器学习等于过拟合”的误解,提升机器学习模型的稳健性和泛化能力,努力推动机器学习在投资领域的应用。
风险提示
时序交叉验证方法是对传统模型调参方法的改进,高度依赖基学习器表现。该方法是对历史投资规律的挖掘,若未来市场投资环境发生变化导致基学习器失效,则该方法存在失效的可能。时序交叉验证方法存在一定欠拟合风险。
免责申明
本报告仅供华泰证券股份有限公司(以下简称“本公司”)客户使用。本公司不因接收人收到本报告而视其为客户。
本报告基于本公司认为可靠的、已公开的信息编制,但本公司对该等信息的准确性及完整性不作任何保证。本报告所载的意见、评估及预测仅反映报告发布当日的观点和判断。在不同时期,本公司可能会发出与本报告所载意见、评估及预测不一致的研究报告。同时,本报告所指的证券或投资标的的价格、价值及投资收入可能会波动。本公司不保证本报告所含信息保持在最新状态。本公司对本报告所含信息可在不发出通知的情形下做出修改,投资者应当自行关注相应的更新或修改。
本公司力求报告内容客观、公正,但本报告所载的观点、结论和建议仅供参考,不构成所述证券的买卖出价或征价。该等观点、建议并未考虑到个别投资者的具体投资目的、财务状况以及特定需求,在任何时候均不构成对客户私人投资建议。投资者应当充分考虑自身特定状况,并完整理解和使用本报告内容,不应视本报告为做出投资决策的唯一因素。对依据或者使用本报告所造成的一切后果,本公司及作者均不承担任何法律责任。任何形式的分享证券投资收益或者分担证券投资损失的书面或口头承诺均为无效。
本公司及作者在自身所知情的范围内,与本报告所指的证券或投资标的不存在法律禁止的利害关系。在法律许可的情况下,本公司及其所属关联机构可能会持有报告中提到的公司所发行的证券头寸并进行交易,也可能为之提供或者争取提供投资银行、财务顾问或者金融产品等相关服务。本公司的资产管理部门、自营部门以及其他投资业务部门可能独立做出与本报告中的意见或建议不一致的投资决策。
本报告版权仅为本公司所有。未经本公司书面许可,任何机构或个人不得以翻版、复制、发表、引用或再次分发他人等任何形式侵犯本公司版权。如征得本公司同意进行引用、刊发的,需在允许的范围内使用,并注明出处为“华泰证券研究所”,且不得对本报告进行任何有悖原意的引用、删节和修改。本公司保留追究相关责任的权力。所有本报告中使用的商标、服务标记及标记均为本公司的商标、服务标记及标记。
本公司具有中国证监会核准的“证券投资咨询”业务资格,经营许可证编号为:91320000704041011J。
全资子公司华泰金融控股(香港)有限公司具有香港证监会核准的“就证券提供意见”业务资格,经营许可证编号为:AOK809
版权所有2018年华泰证券股份有限公司
林晓明
执业证书编号:S0570516010001
|
|