时间序列vs横截面数据 哪家强?

论坛 期权论坛 50ETF期权     
期权匿名问答   2023-2-11 23:21   4085   1
前言:关于横截面、时间序列等专业术语在研究文献中经常被使用,这两种数据挖掘模式在各个领域都有很大的用处。例如,时间序列分析帮助旅游景点预测本年旅游人数,帮助气象专家预测天气等。在量化交易方面这两种数据采集方式都可以帮助预测收益等信息。本文将从定义、区别、应用等角度对横截面和时间序列进行研究。
第一部分:概念与定义



  • 横截面数据
横截面数据是在同一时间收集到的不同统计单位的数据集合。通常研究的是某一时间点上的不同对象的表现,离散性高,突出空间(对象)的差异。一般横截面数据表现出来的无规律并非是真正的“随机”,而是一种无法观测的异质性。
在处理横截面数据的过程中,我们要注意异方差问题。异方差问题代表我们在分析数据的差异时,要强调不同空间(对象)本身就存在差异,而不能直接将其归结于某种经济学现象。关于异方差性检验的方法大致有:图示检验法、Goldfeld-Quandt检验法、White检验法、Park检验法和Gleiser检验法。事实也证明,实际经济问题中经常会出现异方差性,这将影响回顾模型的估计、检验和应用。
除此之外,还有一致性问题。这种问题代表我们要确保取样时间和数据的计量标准是一致的,即要保证取样、选值的公平性。检验一致性的方法有很多,比如:Kappa检验、ICC组内相关系数、Kendall W协调系数等。如图1所示,每种方法的功能侧重,数据要求都略有不同:



图1  一致性检验方法总结  来源:SPSSAU整理


  • 时间序列数据
时间序列是指同一统计数指标的数值在同一对象上按照发生的时间先后顺序排列而成的数列。主要目的就是根据历史数据对未来数据进行的预测方法。时间序列数据的分析基于“相关性”,即只能利用每个数据点之间的相关性去预测未来,这可能导致了误差逐渐积累会越来越远,无法保证预测值的真实性。
时间序列模型有很多种,传统时序建模方法包括算数平均法,移动平均法,加权移动平均,指数平滑法,自回归和移动平均法等。机器学习中的时间序列模型包含xgboost,随机森林及SVM等。
在使用时间序列分析方法的时候,我们可能面临着多重共线性的困扰,即由于选取的经济变量之间有着相关的共同趋势,或者因为滞后变量的引入导致回归的结果有着一定的偏差。


  • 面板数据
也叫平行数据,是在时间序列上选取横截面和时间序列两个维度,当这类数据按两个维度进行排列时,数列不是一条,而是在一个平面上,整个表格像是一个面板,因此被称为“面板数据(Panel Data)”。一般来说,面板数据的标准步骤有混合效应,横截面固定效应,时间固定效应以及双向固定效应。面板数据能够提供更多的信息、更多的变化、更少的共线性、更多的自由度和更高的效率。
第二部分:经典例子——资产定价模型


CAPM、Fama-French三因子模型和Barra模型是常见的因子模型,他们之间的区别也与两种回归方式紧密相关。那么,这几种模型到底有什么区别呢?
CAPM和Fama-French是类似的,通过下列公式简单对比两个模型,Fama-French只是在CAPM的基础上增加了市值和市净率两个新的因子和定价错误的偏差α,在回归方式上是一样的。这是因为原本简单的CAPM模型意味着收益只与大盘的收益线性相关,其结论背后的逻辑相当简单,在复杂的市场中,这种简单的定价方式显然是不准确的。而Barra模型则是典型的横截面回归。
CAPM: r_n-r_f=\beta(r_m-r_f)+\mathcal{E}_{n}
Fama-French: r_n-r_f=\beta_1(r_m-r_f)+\beta_2SMB+\beta_3HML+\alpha_n+\mathcal{E}_{n}
Barra: r_{n}=f_{c}+\sum_{s=1} X_{n s} f_{s}+\varepsilon_{n}


为了更好地从横截面回归和时间序列回归的角度上考虑,我们省略CAPM模型,只探讨Fama-French(代表时间序列回归)和Barra(代表横截面回归)。



图2  不同资产定价模型的比较  来源:财通证券研究所

在应用上的区别如图2所示,主要体现在因子收益与因子暴露上。在Fama-French模型中,因子收益是已知的,可以通过组合构建法来得到,即根据股票的自由流通市值和账面市值比BP的排序进行组合计算,这种方法可以防止因子之间的相互影响,这种方法类似于多空分组法或Double-Sort分组法;而其因子暴露则是通过回归方程估计得到。在Barra模型中因子暴露是已知的,可以根据个股的特征得到;而因子收益则是通过回归方程估计得到。
总而言之,这两种资产定价模型的侧重点是不一样的,Fama-French模型注重对金融产品收益的解释,而Barra模型更注重对收益的预测。在学术研究领域,时间序列的定价模型是更多被采用的,然而在实际量化研究中,使用到的多因子模型一般都是类似于Barra模型的横截面回归。
第三部分:股市研究中的应用


关于股市性质的一些研究中,学者们可能会习惯于使用时间序列的方法,也可能会同时采取两种方法来同时进行论证,在大部分时刻,这些论证是一致的,但是从两个角度同时进行论述会使验证更加完整、准确。


  • 长记忆性(Long Memory)
长记忆性(或持久性,长程相关性),指的就是时间序列数据在相距较远的观测值之间存在的持续依赖关系。和短记忆性以指数形式快速衰减不同,长记忆性会以双曲线的形式缓慢地衰减。因此,在股票中,长记忆性使股价波动具有可预测性。
一般来说,长记忆性的证明都集中于时间序列的维度。比如周树民,陈健红和陈家清(2019)对高频时间序列的长记忆性问题进行的研究,其在时间的选取上,严格复合时间序列的要求,然而在数量上则略少,缺乏一定的横截面数据特征。
然而,陈淼新和黄振伟(2020)首次从横截面的角度去探讨A股市场上股价波动的长记忆性,和股票预期收益率之间的关系。首先,学者根据股票长记忆指标将2000年1月至2019年9月非金融类股票由低到高进行排序,按样本数量将股票等分成10组,第一组是记忆性最短的一组,记为L组合;第十组是记忆性最长的一组,记为H组合。这时,提出新的投资策略:做多L组合并做空H组合,即L-H组合。如图3所示,从横截面来看股票的长记忆性和预期收益之间存在显著的负向关系,即长记忆性越高的股票预期收益越低,除此之外,还能说明股票的长记忆性与其未来预期收益之间的负向关系并无法由市场因子或Fama-French模型风险因子所解释。



图3  市值加权和等权重加权下每一个分组的投资组合收益率的平均值、以及CAPM模型和Fama-French三因子模型的alpha

此后,为了控制一些常见的可能会影响股票预期收益的公司特征因素,如市值、账面市值比、动量等,学者还进一步采用了双变量分组的方式,发现结论不变,长记忆性与投资组合未来的超额收益之间仍存在显著的负相关关系。
然后,为了同时控制其他公司特征因素的影响,并进一步探讨长记忆性与个股未来超额收益之间的关系,学者采用了Fama-Macbeth方法,图4给出了其实证结果。在单变量回归模型1的基础上逐一增加公司特征指标作为控制变量,得到模型2~11,长记忆指标的风险溢酬始终在 10%的水平下显著,维持在-0.5102到-0.3619之间。结合包含了所有公司特征控制变量的模型12,能明确地说明长记忆指标中包含有公司特征因素之外的重要定价信息,长记忆性的风险溢酬显著为负。



图4  Fama-Macbeth回归结果

最后,基于已实现波动率的异质自回归(HAR-RV)表明,由于长记忆性意味着波动率具有较高的可预测性,即较低的不确定性,相应地,投资者所要求的风险补偿也更低,因此,长记忆性股票具有更低的预期收益率。


  • 市场β不足解释A股市场收益率
CAPM模型是现代资产定价理论的开端,那么这个模型是否也能作用在中国股票市场上呢?CAPM模型在A股市场上的表现也使用到了两种方法进行验证。
我国学者从上个世纪90年代以来,也对CAPM进行了许多的实证,虽然在证明的过程中充满着坎坷和一些误区,例如:靳云汇、刘霖(2001)由于没有找到合适的用于检验的投资组合,以及没有捕捉到Fama-MacBeth横截面回归的精髓,他们无法对假设进行拒绝过程,且错误地得到认为β有效的解释了中国股票市场的收益率横截面的结论;陈小悦、孙爱军(2000)虽然实证数据的时间比较短,但是结论是正确的;潘莉、徐建国(2011)的研究重点稍有偏差,得到了相反的结论…随着研究的深入,我们发现,总体而言市场β不足以解释中国股票市场的股票收益率。
首先,我们使用时间序列检验。第一步,如图5所示获取符合条件的股票的数据;第二步,按照下面的时间序列回归式估计各投资组合在检验期间内的市场超额收益率回归系数 \hat{\beta}_{p} 和截距 \hat{\alpha}_{p} ,回归结果如图6所示:
R_{pt}-R_{ft}=\alpha_p+\beta_p(R_{Mt}-R_{ft})+\mathcal{E}_{pt}
其中R_{pt}为第p个投资组合t时刻的收益率,由投资组合内个股的收益率进行市值加权平均得到; \beta_p 为投资组合p的市场β; \alpha_p 为投资组合p的时间序列回归式得到的截距。 \mathcal{E}_{pt} 为投资组合p的时间序列回归残差,包含了个股残差 \mathcal{E}_{it} 之间的横截面相关。因此,截距的估计值 \hat{\alpha}_{p} 的标准误差将会考虑了个股残差可能存在的横截面相关。



图5  样本数量



图6  时间序列回归结果

图7展示了这10个投资组合在204个月中的收益率平均值与按照CAPM得出的理论值进行的对照。可看出,实际的平均收益率没有随着系统风险的増加而上升,而是呈现出下降的趋势。这在表面上显示市场风险溢价可以解释超额收益率,但是进行时间序列的GRS检验过程后,可以发现结果拒绝了CAPM的零截距假设,时间序列回归检验结果没有很好的支持CAPM的理论。



图7  不同市场β投资组合的实际月均收益率同CAPM预示收益率对照

其次,我们使用横截面检验。学者使用Fama-MacBeth横截面回归,在回归方程中,除了包括投资组合一年期的估计量作为真实的估计值之外,不仅选取β估计量的平方检验股票收益率横截面是否跟β呈线性关系,还选取了β之外的可能对股票收益率横截面有影响的变量:回归残差平方和股票市值,来检验CAPM的完全性结论。学者采用“估计-再估计-检验”的三步验证法,具体步骤如图8所示:



图8  横截面回归的实证过程

最终的回归结果如图9所示,实证结果表明,β在中国没有显著解释能力,β的平方在中国也没有解释能力,但是回归残差平方和股票市值同时对收益率具有显著的影响作用,即β之外的因素具有显著的解释能力。学者又结合一系列的复杂研究,认为长周期下,我国A股市场不存在独立于市值效益和价值效应的盈利异象和资产增长异象;而在短周期下,我国则存在显著的盈利增长异象,即盈利增长幅度大的公司,其股票会获得较高收益。



图9  横截面回归的实证结果

在学术界存在争议的是模型中的定价因子产生溢价的原因,它可能是出于风险考虑的理性定价的结果,可能是行为金融学派认为的投资者非理性定价所导致的,还可能是由于投资者对于某些资产的偏好引起的(如风格投资)。面对这些可能,还需要未来进一步的研究,并深刻发掘经济现象的本质。
第四部分:总结


时间序列和横截面数据无论是在学术领域还是应用层面上,都起着举足轻重的作用。这两种研究方法在不同问题上的侧重点不一样,能够相互补足,这对于研究来说,能提供给学者更多的思路,但同时需要的数据也更多。
对于这两种方法的研究与权衡从未停止,研究人员还会在更多行业领域上接触到。
参考文献


[1]陈淼鑫,黄振伟.股价波动的长记忆性与横截面股票收益——基于中国市场的实证研究[J/OL].中国管理科学:1-12[2021-10-13].https://doi.org/10.16381/j.cnki.issn1003-207x.2020.1410.

[2]周树民,陈健红,陈家清.基于贝叶斯ARFIMA-WRV模型高频数据长记忆性研究[J].数学的实践与认识,2019,49(21):41-51.
[3]刘学良,陈琳.横截面与时间序列的相关异质——再论面板数据模型及其固定效应估计[J].数量经济技术经济研究,2011,28(12):96-114.
[4]尹昱乔.中国A股市场资产定价模型实证研究[D].东北财经大学,2016.
[5]因子动物园.知乎.FF和Barra体系,谁是你的菜?
[6]石川.知乎.正确理解Barra 的纯因子模型
[7]Eugene F.Fama, Kenneth R. French. Comparing Cross-Section and Time-Series Factor Models
[8]财通证券.似是而非:横截面回归还是时间序列回归?2019

市场有风险,投资需谨慎。以上陈述仅作为对于历史事件的回顾,不代表对未来的观点,同时不作为任何投资建议。
分享到 :
0 人收藏

1 个回复

倒序浏览
xgboost,随机森林,SVM处理时序问题?
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

积分:394347
帖子:78870
精华:0
期权论坛 期权论坛
发布
内容

下载期权论坛手机APP