基于线性多项式模型的50ETF期权隐含波动率曲面建模研究

摘要:本文在研究vix.shtml" target="_blank" class="relatedlink">50ETF期权数据特征的基础上，对杜马斯线性多项式模型进行了改进，提高了参数t多项式的幂次，得到了几个模型。基于市场数据，我们从不同的角度对这些模型进行了测试。通过实证分析，我们得到以下三个结论。第一，随着模型复杂度的增加，该模型在数据解释方面的表现可以更好，但是幂次超过3以后预测效果在下降。其次，模型越复杂越容易出现过拟合，削弱了模型的预测能力。最后，我们发现当参数的多项式的幂为2时，算法表现出较好的适应性和预测能力，适用于建立日频报价的50ETF期权模型。
关键词:隐含波动率曲面；线性多项式；波动率微笑
01
相关说明国外的波动率曲面模型化一般是建立于对市场数据的分析之上的，特别是对于期权波动率微笑特征和期权期限的结构分析。对于权益类期权，一般有三种典型的隐含波动率曲面的的特性：
（1）期权的隐含波动率表现出微笑曲线的样子，即平值期权的隐波比虚值实值期权隐波低。
（2）近月期权比远月期权有更好的流动性以及更明显的微笑特征。
（3）受市场波动的影响，近月期权被影响的最大，其隐波变动幅度也大于远月期权。
本文通过研究50ETF期权的隐含波动率的数据特性，并探讨可以适合于交易预测的隐含波动率曲面的建模方法。因此我们从下面三步来研究：
（1）探究50ETF期权的波动数据特性。
（2）探究50ETF期权隐含波动率曲面的建模方法。
（3）探究期权波动率曲面的预测效果。
我们的目标是建立日内实时风险的隐含波动率曲面模型，因此需要具备以下三个特征：
（1）模型简单并有好的表现，以便于结果被实时计算。
（2）模型需要能够准确地拟合市场数据。
（3）模型需要能够根据当前状态预测其后续的波动率。
02
波动率微笑成因“波动率微笑”即具有相同到期日和标的资产而执行价格不同的期权，其执行价格偏离标的资产现货价格越远，隐含波动率越大。
波动率通常是用来描述股票、期货等资产价格变化有多快的一个指标，而涉及到期权这一衍生工具的波动率，有两类比较重要：一是历史波动率，它是基于对标的资产在过去历史行情中价格变化的统计分析得出的，也就是对其标准差的计算；二是隐含波动率，它是期权市场对标的资产在期权存续期内波动率的预测，由于在期权交易中受市场买卖力量的影响，隐含波动率与历史波动率必然会有所差异。期权定价模型中唯一的真正变量就是波动率，其他所有参量，包括标的资产的价格、期权的执行价格、期权到期剩余天数、现有的利率水平，在计算某一只期权合约的理论价值时都是固定的。从这个角度讲，抛开定价模型本身的优劣程度，计算出的理论价格准确性取决于所有输入参量的精确程度。甚至可以说，做期权就是做预期的波动率。虽然历史波动率和隐含波动率都可以用来帮助交易者预测未来的波动率，但在实际交易中，隐含波动率更受交易者重视。
在实证研究中，通过传统BS期权定价模型计算出来的隐含波动率呈现出一种被称为“波动率微笑”的现象，即具有相同到期日和标的资产而执行价格不同的期权，这些期权的执行价格偏离标的资产现货价格越远，其隐含波动率越大。Rubinstein（1985年）在综合了BS期权定价模型的各种异常情况下，提出了波动率“微笑”具有期限结构，即波动率“微笑效应”以某种系统的方式依赖于期权的到期期限，且这种“微笑效应”在短期期权中比长期期权更加明显。
对于这种隐含波动率的“微笑”曲线特质，研究上给出了很多种解释，大体可以分为两类：一类是从传统BS期权定价公式基本前提假设条件中的设定与现实相比的不合理之处进行的解释；另一类则是从市场交易机制层面进行的解释。
对于传统BS期权定价公式中基本设定不合理之处的解释主要有四种理论：
(1)资产价格非正态分布说
这种理论认为，标准BS模型假定标的资产价格服从对数正态分布，收益率服从正态分布。但是大量实证检验发现，现实市场中，金融资产的收益率分布更加显示出尖峰肥尾的特征。这种分布下，收益率出现极端值的概率高于正态分布，而在公式中采用收益率正态分布的前提假设，会低估了到期时期权价值变为实值与虚值出现的概率，相应也低估了深度实值和深度虚值期权的价格。
(2)资产价格跳跃过程说
BS模型采用的是风险中性定价，并假设资产价格服从带漂移项的布朗过程，忽略了现实市场上资产价格在一定冲击下发生跳跃的可能。例如价格在期权临近到期前发生跳跃，且空方根据变化后的价格调整标的资产头寸并持有到期，到期时复制组合与期权价值将可能出现较大偏差，使得期权空方面临额外风险。这种风险无法分散化，空方必须要求相应补偿，造成期权市场价格对理论价格的溢价。
(3)Gamma风险和Vega风险说
期权空方的Delta套期保值中还面临Camma风险和Vega风险。Gamma是期权价格对标定资产价格的二阶导数，Gamma越大，Delta对标的资产价格的变动越敏感，复制组合价值越容易偏离理论期权价值。期权空方因交易成本无法连续调整标定资产头寸时，Gamma风险也就不可避免。Vega是期权价格对标的资产波动率的一阶导数。标的资产的实际波动率并非BS模型假设的常数，而是一个随机变量。当市场其他条件不变时，Vega越大，期权理论价值越容易发生变化，复制组合的价值也越容易与其发生偏离，导致Vega风险。Gamma风险和Vega风险均可通过引入同种标的资产、相同执行价格但期限较短的期权来进行套期保值，因组合中增加了新的期权，还需要相应重新调整标的资产头寸。这都增加了期权空方的Delta套期保值成本。
(4)标的资产价格预期说
隐含波动率的“微笑”现象与市场对标的资产未来价格走势的预期有关。假定某标的资产的当前价格为S0，市场预期将很快下跌至S1。此时任何执行价格下的看跌期权价格均上升，看涨期权价格均下降。其中执行价格在S1到S0之间的看跌期权因将从虚值转为实值，期权卖方面临的风险将更大，Delta套期保值的成本更高，价格上升最多。同理，执行价格在S1到S0之间的看涨期权因将从实值转为虚值，价格下跌最多。可见，在当前资产价格尚未发生变动的条件下，虚值看跌期权的隐含波动率上升幅度大于实值看跌期权，实值看涨期权的隐含波动率下降幅度大于虚值看涨期权，体现在波动率“微笑”曲线上，均表现为曲线的左半部分高于右半部分。
从市场交易机制进行的解释也有四种理论：
(1)期权市场溢价说
从理论上来看，期权从平值状态变为实值状态和虚值状态的概率应该基本相同，并且在平值状态时其时间价值最大。深度实值期权的Delta接近1，在投资中的杠杆作用最大，相应市场需求量很大。但是除非投资者预期标定资产的价格会有一个根本性的变动，一般不会出售深度实值期权，因此，供给量较小。溢价期权、折价期权分别处于实值和虚值状态，其带给投资者未来较大收益的可能性比平值期权要小，其时间价值也会比平值期权小。深度实值期权的溢价较高，其隐含波动率也较高。对相同执行价格的看涨期权和看跌期权，当一个处于深度实值状态时，另一个必然处于深度虚值状态。根据看涨看跌平价关系，这两个期权的波动率应当大致相同。可见，实值看涨期权的溢价也会造成虚值看跌期权的溢价，造成隐含波动率的“微笑”。
(2)标的资产和期权交易成本说
标定资产的交易成本是期权空方Delta套期保值额外成本的重要来源之一。在保值成本增加相同的条件下，深度实值和深度虚值期权的隐含波动率增加更多，呈现出隐含波动率“微笑”曲线。期权本身也存在交易成本。深度实值和深度虚值期权的流动性较差，交易成本也较大，这个效应通过期权的Gamma风险保值，可引发波动率“微笑”。平价期权的Gamma风险最大，如只用标的资产保值，其头寸调整最为频繁，引致的额外成本最大。但是另外两个效应减轻了这个影响：第一，平价期权的Gamma随时间单调衰减的速度非常快，即Gamma风险下降的速度很快；第二，平价期权可利用短期平价期权保值，后者的交易成本相对较低。相比之下，短期深度实值和深度虚值期权的交易成本较高，深度实值和深度虚值期权更倾向于频繁调整标定资产头寸，受标的资产交易成本的影响更大。可见，交易成本对较长期深度实值和深度虚值期权的影响是双重的，大于对平价期权的影响。
(3)交易成本不对称说
做市商机制下有可能出现买卖价差的不对称。市场上买方力量较强时，做市商在卖出上收取较多佣金，在买入时收取较少佣金，真实的资产价格将更接近买入价而非买入卖出的中间价。卖方力量较强时正好相反。作为一种保值工具，期权市场需求通常大于市场供给，在做市商的作用下，更易出现买卖价差的不对称，且其真实价格更接近买入价。实证研究中多采用中间价，高估了期权价格，也高估了隐含波动率。对深度实值和深度虚值期权，因其买卖差价更大，中间价对实际价格的高估更多。
(4)报价机制和价格误差说
资产的实际价格是连续变动的，但在市场交易中标的资产、期权和无风险利率都存在报价的最小间距，造成实际价格与报价之间存在误差。资产的真实价格应在当前报价水平上加上或减去一个微小的差价。此外，标的资产与期权报价间的不同步、当前指数价格或者成分股当前价格的不同步等也会影响期权价格的准确性。
03
模型简介1998年Dumas发表了基于线性多项式参数公式的模型。该模型假设隐含波动率的变化与期权价格的对数值、到期时间有一定关系，并在时间上有一定的稳定性。模型如下：

公式1
公式1中
为估计的隐含波动率，
，F为标的物的价格，K为期权行权价格，
是合约到期时间。
是期权隐含波动率的初始值，
是关于变量到期时间对应的合约的隐含波动率的斜率，
是关于变量m的斜率，
表示m与
的乘积对隐含波动率影响的参数，如果到期时间不同，会略有偏差。
表示隐含波动率关于m的曲率参数，
是随机扰动项。我们可以把公式1看成一个带有干扰项的二元二次多项式。
上述表达式暗含着两个假设：
(1)波动率微笑的假设，随着F与K的距离加大，m的绝对值变大，二次增长速度大于一次增长速度，因此对应的
也是变大的。
(2)近月期权比远月期权的隐含波动率变化更显著，这是因为在公式1中关于变量
的最高次数是1，而且还是负数次数，因此
关于
的二阶偏导数中，包含的
的都是负数次多项式，即意味着
越大，二阶偏导值越小，也就是对
变化影响越小。

04
模型建立

本文通过研究50ETF期权日内行情数据提出3个特征：
(1)波动率呈现微笑形态。即在相同到期的合约中，最接近平值的合约的隐波最小，而实值和虚值合约的隐波较高。
(2)近月的微笑结构比远月的微笑结构明显。
(3)平稳市场下近月的隐波整体最低远月依次较高；但是波动比较大的市场环境下下，近月会明显较高，这也符合市场预期。
基于以上结论，文章通过提高合约到期时间参数的权重来改进Dumas线性多项式模型，获得以下模型：

模型A是传统的Dumas线性多项式模型，B-E为改进后的模型，通过增加参数
的次数来增加模型的拟合度。这类模型根据以下最小残差平方和原则来估计参数：

公式2
公式2中
表示期权真实的隐含隐波，
表示隐波的估计值。

05
实证分析

5.1 实证检验方法
本文将从下面3个角度设计检验方法：
(1)静态检验主要是利用当前横截面的抽样数据检验各模型对当前横截面数据的解释能力，因为生成模型的数据与被用于模型检验的数据是同一个数据集合，所以这种检验被称之为静态检验。
(2)动态检验方式使用当前时间片的横截面数据构建模型，用估算出的参数作用于下一时刻的隐含波动率预测值，然后用该隐含波动率预测值与真实隐含波动率对比，检验其偏离程度。一般模型越复杂、可变的参数也就越多，参数过拟合的可能性也就越大。因此也需要动态验证。
本文使用R2, IVRMSE, %IVRMSE这三个统计量评价拟合效果

      公式3

是第k个期权的隐含波动率，
是根据模型获得的第k个期权的隐含波动率估计值，
是均值。R2越接近1，拟合程度越好。


公式4
IVRMSE解释了通过波动率曲面估计的隐含波动率和实际隐含波动率之间的平均偏差的大小，范围在0-1之间，越接近0说明拟合效果越好。


公式5
%IVRMSE是IVRMSE的相对统计量，范围在0-1之间，越接近0，模型对数据的拟合程度越好。
5.2 期权数据
本文采用2020.1.1-2020.5.26数据作为样本数据，用筛选的合约的收盘价计算隐含波动率，分别统计看涨和看跌期权不同虚值程度的隐含波动率。分别取每月10日的横截面数据，如下所示：

表格第一行，期权价值程度的衡量，100%代表当前现货，两侧分别对应当前现货价格的价值程度。
对比上表可以发现：
(1)观察不同价值程度的期权隐含波动率，平值期权附近的波动率处于低位，实虚两侧的期权的隐含波动率相对较大，总体上呈现微笑特征。
(2)相较于远月期权，波动率微笑特征在近月期权中更加明显。
(3)我们选取的是今年1月到5月的数据，在前2个月市场比较平稳的状态下，期权隐波的期限结构呈现由近及远，隐含波动率水平依次升高的状态，在最近3个月，我们可以清晰地看到近月由于波动较大，近月合约隐含波动率水平最高，远月其他合约和稳定时期的特点一致，呈现出由近及远，隐含波动率水平依次升高的状态。
5.3 模型静态检验
模型检验的期权合约的选取规则：
(1)时间：2020年1月1日至2020年5月26日；
(2)为了避免期权升贴水的影响，将认购和认沽合约分开筛选并分开做模型检验；(3)选取近月合约剩余天数大于7天；
(4)选取收盘时候的虚值合约作为备选合约，然后按照当日成交量由高到低排序，选取成交量合计占比达95%的合约。若当日无虚值合约，则将行权价最后面三个的认沽合约或者行权价最高的三个认购合约作为备选合约。选取成交量占比95%的原因是避免选取太过虚值或者无成交量的合约。
本文采用的τ是以年作为时间单位的，这个以通常计算隐含波动率是一样的，在做模型检验的时候，我们发现由于τ的值是明显小于1，所以在τ的三次幂以上的数值都非常小，这样会使得模型参数检验的样本矩阵出现未满秩的情形，会使得解不是唯一，也使得解不够稳定，因此，本文只震荡模型A和模型B进行模型检验。
本文的模型检验的合约剩余天数分为两种：合约天数大于7天、合约天数大于14天；由于考虑到较长时间波动率的曲面形状会发生较大的变化，因此本文采取的样本时间长度是3天和5天的进行测试(假设短期内波动率曲面形状几乎保持不变)；再加上认购和认沽合约分开检验，因此静态检验结果得到222=8个表格，分别如下(以上检验次数为90次的是以5天频率的样本，92次的是3天频率的检验样本)：

结论：表1-表8都显示模型B的拟合效果优于模型A的拟合效果，无论是从R2还是IVRMES，还是检验的有效次数的对比，都是一样的结论。通过表1与表3的对比、表2与表4的对比、表5与表7的对比、以及表6与表8的对比，都可以得出的结论是：无论是模型A还是模型B、无论是认购合约还是认沽合约，都是3天频率的样本的检验效果优于5天频率的样本的检验效果，这说明了期权合约的隐含波动率短期变化的程度相对于长期较小。其他条件相同的情况下，总体上认购和认沽合约之间的检验效果无明显的差距。
5.4 模型动态检验
模型的动态检验是用前一个交易日得到的模型参数，作用于下一个交易日，得到的估计值与真实值之间进行对比。这个是检验模型的预测效果，与模型的静态检验的拟合效果是不同的。合约筛选与静态检验一样，由于是一个预测效果，所以在相同时间内，检验次数上相对于静态检验的次数就少于一次。同样，我们也可以得到8个表格。以下检验次数为89次的是以5天频率的样本，91次的是3天频率的检验样本。
结论：表1-b到表8-b都显示模型A的预测效果优于模型B的预测效果，无论是从IVRMES还是%IVRMES，还是认购和认沽合约的对此，都是一样的结论。这说明了，不是模型拟合效果好就有预测效果好，很有可能是一种过拟合的现象。通过表1-b与表3-b的对比、表2-b与表4-b的对比、表5-b与表7-b的对比、以及表6-b与表8-b的对比，都可以得出的结论是：无论是模型A还是模型B、无论是认购合约还是认沽合约，都是5天频率的样本的检验效果优于3天频率的样本的检验效果，这说明了在预测期权合约的隐含波动率上，短期变化的程度不能代表未来的变化程度，相反变化较为平均的长期参数可能更有参考意义。而且从8个表格中，可以得出模型A的结果是非常稳定的，不像模型B对大于7天的合约的效果显著不如大于14天的合约效果。其他条件相同的情况下，总体上认购和认沽合约之间的检验效果无明显的差距。

06
结论

本文通过对50ETF期权盘中报价数据集的研究，提出了权益类衍生品的三个特点：
(1)期权的隐含波动率表现出微笑曲线的样子，即平值期权的隐波比虚值实值期权隐波低。
(2)近月期权比远月期权有更好的流动性以及更明显的微笑特征。
(3)当市场比较平稳的状态下，期权隐波的期限结构呈现由近及远，隐含波动率水平依次升高的状态；当市场比较动荡不稳定的时候，近月合约隐含波动率水平最高，远月其他合约和稳定时期的特点一致，呈现出由近及远，隐含波动率水平依次升高的状态。
基于我们上面总结的规律，本文中我们改变了Dumas的线性多项模型，来增强多项参数τ，获得多种模型。从不同的角度对这些模型进行了测试，发现幂次为1和2的时候结果是有效的。
从实验的结果上，我们总结3个原理：第一，当模型变得更完善会出现过拟合的现象，会降低模型在预测上的能力。第二，尽管复杂的模型有更好的表现，但是基础的模型的多项参数τ幂次等于1时的预测能力也很强。第三，我们发现当τ的幂次等于2时，算法在拟合和预测表现上都有更好的适用范围，适用于建立50ETF期权的波动率曲面模型。

重要声明
本报告的数据来源于具有公信力的市场公开资料，本公司及研究人员对这些信息的准确性和完整性不作任何保证，且本报告中的资料、意见和预测均仅反映本报告发布时的资料、意见和预测，可能在随后会作出调整。我们已力求报告内容的客观、公正，但文中的观点、结论和建议仅供参考，不构成投资者在投资、法律、会计或税务等方面的最终操作建议。本公司不就报告中的内容对任何人作出的最终操作建议做任何形式的担保，亦没有任何形式的分享证券投资收益或者分担证券投资损失的书面或口头承诺。投资者应自主作出投资决策并自行承担投资风险，据本报告做出的任何决策与本公司和本报告作者无关。本报告版权仅为本公司所有。未经本公司书面许可，任何机构和/或个人不得以任何形式翻版、复制和发布本报告。任何机构和个人如需引用、刊发本报告，须同时注明出处为旷特量化金融科技研究所，未经授权即对本报告进行任何有悖原意的引用、删节和/或修改的，应承担相应的法律责任。市场有风险，入市需谨慎。
旷特金融科技研究所，为机构客户定制传统程序化交易策略以及人工智能投资策略，涵盖股票、期货、期权、以及其他标准化交易标的。金融科技合作领域，包括区块链研究、区块链项目开发、数字货币研究、风控系统开发、人才培养、学术交流讲座、量化比赛承办等。

基于线性多项式模型的50ETF期权隐含波动率曲面建模研究

浏览过的版块