【分享吧】基于线性多项式参数化方法构建实时预测用的期权隐含波动率曲面（下）

★
模型实证检验
（一）模型检验方法
1
模型的检验统计量
   为了定量检验模型效果，我们借鉴了现有研究中常用的误差评估方法，即统计波动率曲面估计的隐含波动率与根据牛顿迭代法获得的隐含波动率存在的偏差，以及根据波动率曲面获得的理论价格以及期权市场价格之间的存在的偏差，并通过偏差估计量的均值、标准差和分位数评估模型对现实情况的拟合效果。具体而言，涉及隐含波动率均方根误差（IVRMSE）、隐含波动率均方根相对误差（%IVRMSE）、期权价格均方根相对误差（%OPRMSE）这3个统计量：
   隐含波动率均方根误差（IVRMSE）解释了通过波动率曲面估计的隐含波动率和根据牛顿迭代法计算的隐含波动率之间的平均偏差的大小，其中σk代表第k个期权的隐含波动率，δk表示根据模型获得的第k个期权的隐含波动率估计值。

   隐含波动率均方根相对误差%IVRMSE是IVRMSE的相对统计量，公式如下：

   期权价格均方根相对误差（%OPRMSE）统计将波动率曲面估计的波动率作为参数代入理论定价模型获得的理论价格与期权市场实际价格的平均偏差的相对量，公式如下：

   其中：Ρk代表第k个期权的市场价格，^Pk代表第k个期权的价格估计，^Pk是在隐含波动率估计值δk的基础上使用BAW定价模型计算获得的期权理论价。
   这几个统计量的值越接近0，表明模型的拟合程度越强, 对数据拟合程度越好。因为深度虚值期权的价格很微小，期权波动率稍微变动将导致期权价格较大幅度波动，所以%OPRMSE要远大于%IVRMSE。
2
模型的检验方法
   本文将从下面3个角度设计检验方法：
   （1）静态检验主要是利用当前横截面的抽样数据检验各模型对当前横截面数据的解释能力，因为生成模型的数据与被用于模型检验的数据是同一个数据集合，所以这种检验被称之为静态检验。
   （2）交叉检验[12]是将波动率切面数据按照一定比例随机分成两组，以其中一组数据构建波动率曲面，然后验证另外一组数据距离曲面的程度，这种方法的检验结果可用于判断波动率曲面在空间（临近的合约）维度上的预测效果。
   （3）动态检验方式使用当前时间片的横截面数据构建模型，保留估算出的参数（即β0~β8）并将此作用于下一时间片的数据以产生下一时刻的隐含波动率预测值，然后使用该隐含波动率预测值与真实隐含波动率对比，检验数据之间的偏离程度。一般而言，存在两种情况：①模型越复杂、可变的参数也就越多，参数过拟合的可能性也就越大；②采样的时间间隔越长，对下一时间片的预测能力可能也就越差。因此，本文检验了多个时间间隔长度的隐含波动率的预测效果。
（二）静态检验对比分析
   将原始市场数据按照每10分钟取一次横截面数据，调用牛顿迭代法获得的横截面的隐含波动率数据，并从每个横截面上将过旧[13]的数据消除，总共含360个横截面、105433条数据。
1
基准模型对比分析
   基准模型对比是指上文提到的Bernard Dumas模型（公式1）和Gonzales Silvia模型（公式2）之间的对比分析 :
   首先，本文取2018年4月24日的9:10（随机抽取）的数据，画出这2个模型的隐含波动率曲面图（图中蓝色点表示隐含波动率样本数据）：

图2  Bernard Dumas模型的隐含波动率曲面

图3  Gonzales Silvia模型的隐含波动率曲面
   从上面2个图来看, 利用模型构建曲面与蓝色的样本点数据的吻合程度相对都较好，目测无明显差异。
   然后，本文使用这360个横截面数据计算模型的统计量的均值和方差，如下面表4所示：
表4 基准模型之间的统计量对比

   下面表5、表6按照期权在值程度分解，并分别区分看涨期权和看跌期权分段展示各统计量均值。这样处理不仅利于发现分析模型之间的差异，而且表中%OPRMSE的分段统计结果也可以作为设置动态涨跌停板的容差范围的一个参考依据。
表5  看涨期权的分段统计量均值比较分析

表6  看跌期权的分段统计量均值比较分析

   由上表4可知，Bernard Dumas模型的统计量稍小一点；由上面表5和表6可知：在大多数的分段区间，Bernard Dumas模型各统计量也相对更小一些。可见Bernard Dumas模型更加适合构建豆粕期权的隐含波动率曲面，可据此作为基准模型。
2
扩展模型对比分析
   本文针对在Bernard Dumas模型之上产生的A~E共5个模型做对比分析。首先，本文取2018年4月24日的9:10的数据，画出模型的隐含波动率曲面图，因为A模型就是Bernard Dumas模型，所以这里仅画出了B~E这4个模型的曲面图：

图4 模型B的隐含波动率曲面

图5 模型C的隐含波动率曲面

图6 模型D的隐含波动率曲面

图7 模型E的隐含波动率曲面
   从上述5个图（图2、图4、图5、图6、图7）中可以看出：从模型A到模型E, 利用模型公式构建的曲面与隐含波动率样本点的吻合程度越来越高，可见，提高参数τ的幂级数可以提高模型对当前横截面数据的拟合能力。
   然后，本文使用这360个横截面数据计算出各模型的统计量的均值和方差，如下面表7、表8、表9、表10所示：
表7 基准模型之间的统计量对比

   由上表7可知，由IVRMSE和%IVRMSE这两个统计量来看，从模型A到模型E各统计量的均值显著降低而标准差变化不大，可见随着模型的复杂程度增大，模型样本内解释力度也在增强。表中的有效次数代表在这360个横截面数据中有多少个横截面的数据能被模型解释，一般情况下，当一个横截面数据中的月份数量小于或等于模型中的月份参数数量时，横截面数据是能被模型解释的。从上表来看，模型A、B、C、D都是100%解释数据，而有160个横截面数据无法被模型E解释，占比33.34%，由此可见模型E的应用于预测环境的可行性较低，所以后面仅做模型A、B、C、D的分段统计量分析。
表8  模型B的分段统计量分析

表9  模型C的分段统计量分析

表10  模型D的分段统计量分析

   可见，由模型A（dumas）到模型D, 各统计量持续降低而标准差变化不大，可见随着模型参数的复杂程度增大，样本内解释力度亦在增强。
（三）预测检验分析
   本文采用交叉检验法和动态检验法检验不同模型的预测能力，从而为动态涨跌停板的基准模型选择提供判断依据。
1
交叉检验分析
   本文选用2018年4月的全部横截面数据（共360个），并使用上文提到的交叉检验法进行度量，即将原始波动率切面数据按照给定比例(95%\97%\99%)随机分成两组,数量大的组作为训练集,另一组作为验证集；首先用训练集数据构建波动率曲面,并获得模型参数，然后再利用验证集数据衡量模型效果，比如样本分组比例为95%，就代表训练集的样本数占波动率切面整体样本数的比例为95%，验证集取剩余5%样本。统计结果如下：
表11 交叉检验的统计量对比

   由上表可得：
   （1）同一模型不同样本分配比例间的统计结果相差很小，样本分配比例从95%到99%，%IVRMSE的差值不超过2，这说明在随机丢失小部分数据定比例的数据情况下，模型的预测能力没有发生较大偏差，各模型的稳健性都较好。（2）同样本分组比例不同模型简的数据横向比较，由模型A到模型D各统计量的均值都在降低，各统计量的标准差稍微有所增加，均值降低说明了提高参数τ的幂级数有利于提高模型对同横截面内其它合约整体的预测精度，标准差增加说明了提高参数τ的幂级数反而提高了横截面预测波动程度。
2
动态检验分析
   本文使用上文提到的动态检验法进行度量。因为研究目的是应用于盘中实时波动率测算的环境，所以设置的检验时间长度较短，主要是30秒、60秒、90秒、120秒这4种情况。因为每天按照30秒抽取一次横截面数据的样本量过大，生成全样本需要较长时间，所以本文并没有使用全样本，而是每日分别抽取了早上两小段时间（早上9:30-9:40，下午13:50-14:00）来生成样本。
表12 动态检验的统计量对比

   由上表可知：（1）从同时间预测长度不同模型的角度来看，由模型A到模型D的各统计量的均值在降低，且变化幅度较小；但是标准差在增加，且由模型A到模型B时标准差增加的幅度较小，而从模型B到模型D,标准差的增加幅度较大；（2）从同模型不同预测时间长度的角度来看，由30秒到90秒、各统计量的均值和标准差的变化不大；由90秒向120秒、各统计量的均值变化亦不大，但是模型C和模型D的各统计量的标准差有较大的改变。（3）综合来看，各模型在90秒内的预测效果都较优，但是模型B更优，在120秒内依然保持预测结果的稳定性。
   据此，参照上面静态分析中的方法，列出了模型B的90秒动态检验的分段统计量，如下表所示：
表13 模型B在90秒动态检验的分段统计量分析

   由上表可知：（1）由IVRMSE来看，平值附近若干档的预测准确度要优于两侧的，而从%IVRMSE来看，则平值和实虚两侧的期权预测准确度是差不多的，这是因为平值附近的期权价值也相对要小一点，%IVRMSE中体现了期权价值的确权过程，所以这两个统计量出现了稍许差异。（2）由%OPRMSE来看，当期权由实值向虚值变化的过程中，%OPRMSE统计量的值在逐渐增大，所以如果将来有机会将波动率曲面模型应用于动态涨跌停板等应用场景，则需要根据期权的在值程度设置不同的容差比例；（3）从整体来看大多数分段的%IVRMSE统计量在20%以内，即模型B在90秒内具备高于80%的预测准确率，具备一定的应用可行性。
★
总结
   首先，本文在对国内豆粕期权的TICK数据进行研究之后，发现若干数据特征：（1）主力月份上相同行权价格的看涨期权和看跌期权的隐含波动率的差异不大，而部分非主力月份由于期权样本稀疏的缘故，导致相同执行价格的看涨期权和看跌期权的隐含波动率出现一定程度的差异。（2）从整体上看波动率期限结构特征明显，即相较于长期期权、波动率微笑在短期期权中更加明显；同时，又具备主力月份的期权合约的隐含波动率要相对高于周边期权合约这国内商品独有的特性。
   然后，据此数据特征，本文探索基于线性多项式的波动率曲面建模方法：首先分析Bernard Dumas模型和Goncalves Silvia模型的差异；然后探索这2个模型的异方差特性，并确定模型参数的估算方法；最后根据豆粕期权的数据特征进行模型本地化构建，通过改造Bernard Dumas模型、提高其中参数τ的幂级数获得5个本地化模型以进一步分析。
   最后，本文从多个角度对这6个模型进行了深入检验：（1）使用静态检验方式检验模型对数据的吻合程度。（2）使用交叉检验方式检验模型的稳健性以及对临近合约的数据预测能力（3）使用动态检验方式检验模型对后续时间片的数据预测能力。
   实验结果表明：（1）提高参数复杂度，确实可以提高模型对样本内数据的解释能力；（2）模型复杂度过高，易产生过拟合效应，降低模型对样本外数据的预测能力下降；（3）综合来看τ的幂级数为2的模型兼具出色样本内解释能力和样本外的预测能力，能更好地适应实时波动率预测的应用环境。
   因为商品期权在国内尚属于新生事物，针对商品隐含波动率曲面建模文章尚不多，所以本文研究的波动率曲面的本地化方法论以及模型验证的方法论,可为行业提供经验证据。
★
参考文献
[1]陈思.期权做市商波动率管理:隐含波动率曲面建模与预测 [D].浙江:浙江大学,2016.6
[2]陈蓉和吕恺.隐含波动率曲面：建模与实证[J].金融研究.第8 期:136-154,2010
[3]毛娟、王建华：隐含波动率曲面的非参数拟合.武汉理工大学学报.第2期:197-19,2009
[4]张爱、吴冲峰，隐含波动率微分算法的改进.上海交通大学学报.第12期:1985~1989
[5]邓力,上证vix.shtml" target="_blank" class="relatedlink">50ETF期权隐含波动率曲面：建模及实证研究.投资研究,第396期
[6]张银龙.基于SARB模型的上证50ETF期权波动率研究与实证分析[D].山东:山东大学,2016.5
[7]郑振龙.隐含波动率曲面的建模与预测.当代财经,第388期
[8]张娟、董锐、左涛.美式期权定价近似方法研究.上证交易技术前沿.第18期:4-14,2015
[9]J.C.Cox,S.A.Ross,M.Rubinstein.Option Pricing:A Simplified Approach. Journal of Financial Economics 3(September 1979), 229-63.
[10]F.Black,M.S.Scholes.The Pricing of Options and Corporate Liabilities.Journal of Political Economy 81 (May-June 1973),637-54.
[11]F.Black and M.S.Scholes.The Pricing of Commodity Contracts.Journal of Financial Economics 3 (January-March 1976),167-79.
[12]Giovanni Barone-Adesi and Robert E.Whaley. Efficient Analytic Approximation of American Option Value. The Journal of Finance: Vol. XL Ⅱ, No.2, June1987.http://www.cmegroup.com/company/membership/membernet/files/20080310S-4684.pdf
[13]Carr p, Wu L. A New Framework for Analyzing Volatility Risk and Premium Across Option Strikes and Expiries[J].  Available at SSRN 1701685, 2010.
[14]Dumas B, Fleming J, Whaley R E. Implied volatility functions: Empirical test[J]. The journal of Finance, 1998, 53(6):2015-2106,July 2007
[15]Gatheral J. A parsimonious arbitrage-free implied volatility parameterization with application to the valuation of volatility derivatives[J]. Presentation at Global Derivatives Risk Management, Madrid, 2004 .
[16]J.Gatheral, A parsimonious arbitrage free implied volatility parameterization with application to the valuation of volatility derivatives, Conference presentation, Madrid, 2004
[17]J.Gatheral, The volatility surface: A practitioner’s guide, Wiley, 2006
[18]J.Gatheral, Arbitrage free SVI volatility surface, Quantitative Finance, 2014
[19]Christoffersen P., and Jacobs, K., 2004, The importance of the loss function in option Valuation[J], Journal of Financial Economics 72, 291-318.
[20]Ihsan Ullah Badshah.Modelling the Dynamics of Implied Volatility Surfaces[J].2008.
注
注释：
[12]交叉检验本质上是将一个数据集合（C）按照比例分成两部分（A, B），取其中一部分数据(A)的数据产生模型，并使用另外一部分数据（B）检验模型的效果，检验理念来自于十折交叉检验方法。
[13] 通过数据评估，综合考虑非主力期货的期权合约的报单情况，发现将10分钟之前的数据定为过旧的数据相对比较合理。

【分享吧】基于线性多项式参数化方法 构建实时预测用的期权隐含波动率曲面（下）

浏览过的版块

【分享吧】基于线性多项式参数化方法构建实时预测用的期权隐含波动率曲面（下）