【高频交易】限价订单薄的建模

在高频交易中，关于limit order book（LOB）的动态建模是一个非常重要的问题，如果能有一个模型可以很好地描述LOB随时间的演化，那么就能从微观上更好地理解价格的变化机理，从而更好地指导高频交易。这篇文章的内容主要来自《Trades, Quotes and Prices: Financial Markets Under the Microscope》的Part III，它从最基本的模型出发，逐步深入地介绍一些LOB模型，并利用这些理论模型来解释限价订单簿的形成与演化。
整体来说，这些模型会从限价订单薄的本质——订单队列入手进行建模，从一个订单队列的dynamic出发，逐步深入地研究订单的到达、撤销和执行等事件对于订单队列的影响，然后再由此扩展到关于LOB的价格变动，从而实现对于微观价格变化的理论建模。接下来我们就开始具体介绍LOB的建模，关于limit order book 的概念这里就不再过多介绍了，不了解的同学可以自行找资料学习。
Zero-Intelligence Modeling

显然，对一个LOB的dynamic进行完整的建模是一件很复杂的事情，因为LOB是由市场上所有的交易者发出的订单形成的，而我们不可能去估计每一个交易者的个体行为，因此为了使建模变得可行，我们这里假设所有的订单的行为都是随机产生的，即订单的到达、撤销和执行等行为都可以由某些随机过程来描述。当然，这样的假设并不符合实际，我们交易者通常是按照某些策略（strategy）来做行动的，因此这样的基于随机性假设的建模也被叫做零智能建模（zero-intelligence modeling）。虽然这样的假设很简单，但是却能够帮助我们对LOB进行建模，而且在一些特定条件下，其理论结果与实际市场表现符合地很好。
The Master Equation

我们知道，LOB其实是由不同价格的订单队列聚合而成的，因此我们先从最简单的情况出发，研究single-queue dynamic，即同价格、同方向的单队列情况，若令表示t时刻订单队列的总量，我们假设该订单队列满足：

所有的订单大小相同，均为。
限价单的到达服从速率为的泊松过程。
市价单的到达（队列中的订单被执行）服从速率为的泊松过程。
订单队列中限价单的撤销服从速率为的泊松过程（与队列长度无关）。

根据泊松过程的性质，可知在到之间，的演化为：

如果只考虑的变动，其仍可以用泊松分布来描述，速率为；当变动发生时，增大方向的概率是，减小方向的概率是。
注意到，这样的dynamic其实还忽略了一个实际情况，那就是当队列为空，即时，订单就不可能再减小了。因此为了符合实际情况，我们这里假定当时，队列会立即被补充至，这里是从一个分布中采样出来的。
有了上面的简化建模，我们接下来就可以通过理论推导来分析订单队列的一些性质，首先令表示在时刻t 队列长度为V的概率，为单位时间内队列变空的概率，那么对于时，满足:

为了便于分析，我们在等式两边乘以，其中等式左边变为，其代表在队列长度为的状态下，其概率在时间内的变化。
而等式右边的第一项为，由泊松分布的性质，可知表示从队列长度为的状态变动到或的条件概率，因此该项表示从状态流出的总概率（即经过后队列长度从V变为其它值的概率）；类似地，第二、三、四项表示从其他状态流入状态V的总概率（即经过后队列长度从其它值变为V的概率）。
因此对于上式，我们可以这样理解：状态概率的变化 = -流出该状态的概率总和 + 流入该状态的概率总和，如下图所示。

在这里，我们关心的是状态概率密度是否有稳态解，即状态V的概率密度不随时间改变，满足。
显然，如果要存在稳态解，需要保证：1、与时间无关，否则流入概率会随时间变化；2、，否则队列长度V会随时间增加至无穷大。
我们考虑的一个简单形式，假设当时，其余情况均为0，即对于任何空的队列，都会立即补充至长度。基于这样的假设，我们可以推导得到稳态的解析解（推导过程可见原书），其形式为：

其中，且有。
得到稳态分布后，可以计算队列的期望长度，当满足极限时，有，可以发现随着趋近于，期望长度也会发散至无穷大。
First-Hitting Times

下面我们来研究订单队列的一个重要的变量，first-hitting times ，这里指队列首次变空的所用的时间，显然在随机性假设下，这是一个随机变量，下面我们将分析的一些统计性质。
我们令表示长度为的订单队列变空所需的期望时间，根据上文的定义，为单位时间内队列变空的概率，那么有：

该结果也符合我们的直觉，可以看做队列长度减小的“速率”，那么从初始的出发，队列长度首次减小为0的预期时间就应该等于初始长度除以速率。
得到期望后，接下来我们更进一步，推导出的概率分布。令代表对于长度为V的序列，first-hitting times 的概率，下面我们就开始求解。
我们可以按照动态规划“分而治之”的思想，求解概率的问题，其实可以被划分为两个子问题，即：=从首次到达的概率 + 从首次到达的概率，其中是队列首次变动所需要的时间。
注意这里只考虑首次到达的概率，由于订单队列每次变动都是，因此我们仅需考虑订单队列从V开始的下一次变动的情况（因为只要队列进行一次变动，状态就一定会归结到两个子问题其中之一）。由上文的泊松过程的假设可知，队列的下一次变动可以用泊松分布来描述，其速率为，现在我们考虑这样的事件：初始时刻为0，队列长度在 ~ 期间没有发生变化（即没有任何订单到达或撤销），然后在 ~ 期间，队列长度增加1（即有1个订单到达）。由泊松分布的性质可知，该事件发生的概率为，其中第一项为队列在 ~ 没有变动的概率，第二项为在 ~ 增加1的概率；类似地，队列在 ~ 没有变动、且在 ~ 减小1的概率为。
由于的求解需要考虑到所有可能的，因此有：

其边界条件为：，该条件含义为：若队列长度V=0，则的概率分布为函数（在处为无穷大，其余均为0）
这样我们得到了关于的方程，对该方程进行求解，后续的推导可见原书，我们这里只给出一个关于first-hitting time 的重要结论：当足够大时，将会趋近于以为均值、为方差的高斯分布。
Fokker–Planck Equation

上面我们讨论的模型都是基于V是离散的情况，而当V足够大时，我们可以认为V的取值是连续的，这时就可以将上文的master equation扩展至连续情况，具体如下：
对于概率分布函数，对其做Taylor展开有

将代入master equation，并令有

引入drift constant 和diffusion constant ，则有

这样我们就得到了连续情况下的master equation，其是Fokker–Planck equation的一种简单形式，也叫做drift–diffusion equation。类似于离散情况，基于该方程我们可以得到在连续情况下的稳态解，令等式左边为0，并在等式右边加上（队列长度为0时，立即恢复到），考虑到边界条件和，通过推导可得出

其中。
Linear Cancellation Rate

上文的模型都是基于一个固定的订单撤销速率的假设，显然该假设与实际情况有不小的差别，从我们的直觉来说，订单的撤销速率应该与当前订单队列长度有关，即越大，撤销速率也越大。因此我们这里将撤单速率变为，即与序列长度呈线性关系，因此有

为了方便表述，这里令分别表示的转移速率，则有。
值得注意的是，线性的撤销速率可以保证队列长度的稳定性，若V过大，则使得队列长度减小，同样，若V过小则会使长度增加，如此可以保证队列的长度趋于稳定。我们计算出队列的稳定长度为。
在线性撤销速率的设定下，若我们假设队列长度为0时，会立即恢复到1。那么新的master equation形式变为

这里直接给出稳态解的形式：，该形式较为复杂，下图是的一些数值解，可以看出若订单到达速率越大，那么概率分布越倾向于更大的V；而若订单执行速率越大，则概率分布越倾向于更小的V，理论结果符合我们的直觉。

再进一步，在连续情况下，则有Fokker–Planck equation

其中drift ，diffusion 。
这里直接给出稳态解的形式：。
这样我们就得到了在线性撤销速率的设定下V的概率分布，而关于first-hitting times的分析这里就不再介绍了，感兴趣的同学可以看原书的5.4.2节。
Large-Tick Stocks

上文介绍了single-queue dynamic，接下来我们就通过在原有模型的基础上加入一些设定，来将其用于large tick股票的LOB建模。所谓large tick股票指的是价格的最小变动(tick)占价格比例很大的股票，例如对于一支1元的股票和一支1000元的股票，价格最小变动单位都是0.01元，那么1元的股票相对来说就是large tick股票，因为0.01/1=1%相对来说更大。
我们关注large tick股票的LOB建模主要是考虑到该类股票在最优买（卖）价上的订单队列不会频繁地被清空。我们知道对于small tick股票（即高价股），价格的变化很频繁，而且往往是几个甚至几十tick的变动，对于这样的股票，最优买（卖）价的订单队列可能在极短时间内就被清空，这样就很难用我们之前的single-queue dynamic进行建模；而对于large tick股票，通常价格的变动并不频繁，一般就是在一两个tick之间变动，一个订单队列的“生存”时间相对来说比较长（粗略估计，对于tick/price为0.2%的股票，价格可能每5分钟才会变动一次），因此更加适合进行single-queue dynamic的建模。
假设当前的订单队列为最优卖单队列（best bid-queue），即，为了能够对LOB进行建模，我们需要在之前的single-queue设定的基础上做一些补充：买卖价差（bid-ask spread）始终保持为1个tick，即当，要么有新的买单恢复队列（这时买卖价都不会变），要么该价格档位上转变为卖单队列（这时价格下降一个tick），因此只有当订单队列为空时，才有可能出现价格的变化。
具体来说，当时，有的概率出现新的买单来恢复队列，订单大小服从分布；还有的概率出现新的卖单来转化为卖单队列，订单大小同样服从分布，这时新的卖单队列变为之前第二档的卖单队列，其长度服从分布。类似地，对于最优卖单队列（best ask-queue），该设定同样保持一致。
下面我们就推导出在新设定下的Fokker–Planck equation，由上文可知其基本形式为：

其中代表队列变空的情况对产生的影响，我们之前的模型都是简单地认为队列会直接恢复至某一长度，不过在现在的模型会考虑得复杂一些，现在我们开始分析的表达式。
令和分别表示买单和卖单队列在单位时间变空的概率，以最优买单队列为例，有以下几种情况，如下所示：

最优买单队列变空，然后有新的买单到达，恢复买单队列至某一长度。该情况发生的概率为，这时队列长度V从0增加至。
最优买单队列变空，然后有新的卖单到达，转化为卖单队列，最优买单队列变为原先第二档的买单队列。该情况发生的概率为，这时V从0增加至。
最优卖单队列变空，然后有新的买单到达，转化为最优买单队列。该情况发生的概率为，队列长度从变为（因为这时原先的买单队列不再是最优买单队列）
最优卖单队列变空，然后有新的卖单到达，恢复卖单队列。该情况发生的概率为，由于没有影响到最优买单队列，因此V保持不变。

由于情况4不会对最优买单队列造成影响，因此的表达式为

我们在这里做对称性假设：，最终有如下形式，显然对该方程的求解很困难，需要做一些近似处理，这里就不过多介绍了，感兴趣的同学可以看原书6.2节的有关内容。

现在我们用上述的模型来对实证数据进行拟合，来观察模型是否可以解释实际市场中的某些行为。由于频繁的价格变化不符合模型的设定，因此这里去除了开盘后1小时和收盘前1小时的交易数据。为了在不同股票、不同时间段上进行比较，这里采用rescaled volume 作为队列长度，其中是平均队列长度。
对于挑选的一些large tick股票（书中选择的是CSCO和INTC股票），首先可以从实证数据中总结出一些统计规律：

rescaled volume 的变动通常都比较小（大约为6%），这更符合基于连续假设的Fokker–Planck equation。
在订单队列变空之前，队列平均的变动次数足够大（约100次），这样的情况就比较适合于single-queue dynamic。
订单序列变空之后，大约有20%的概率会恢复同方向订单队列，即。

其次，我们可以用单位时间内的实证数据来估计drift 和diffusion ，方法如下所示：

得到的估计结果如下，其中纵轴是drift和diffusion的估计值，横轴是rescaled volume，可以看出两支股票的统计结果比较接近。首先对于drift ，其递减的趋势与上文关于线性撤销速率的假设大体是一致的：当队列长度较小时，队列倾向于增大，当队列长度较大时，队列倾向于减小。不过还是与线性假设存在一些出入，因此如果要建立更符合实际市场的模型，还是需要更加复杂的设定。

最后，对于订单队列长度的分布，将模型的理论结果（即状态概率分布的稳态解）与实证统计结果进行对比，如下图所示。结果证明使用Fokker–Planck equation 来建模large tick股票的LOB是可行的。

The Race to the Bottom

通过上面的介绍我们知道，价格的变动的前提是最优买单或卖单订单队列变空，因此如果我们能够对最优买单和卖单队列同时建模，那么就能够用模型估计价格下一次变动的方向及其概率，而这也是高频交易中的核心问题。由于该部分公式较多，受限于篇幅，这里只简单介绍分析思路及部分结果，想深入了解的同学可以看原书第7章。
价格下一次变动的问题其实可以看做为两条最优队列之间的the race to the bottom，即两条队列变空的“竞赛”。如果最优买单队列变空，那么价格就有一定概率减小（参考上一节的情况2），因此我们可以通过上述模型研究the race to the bottom问题，最终估计出价格上涨或下跌的概率。
具体来说；令最优买单和卖单队列的长度分别为和，我们要研究的问题类似一个二维粒子的随机运动，我们要研究它会先在哪一个维度到达0。对于一个初始位置为的随机粒子，其运动轨迹如下图所示，其中左图为完全随机游走的粒子（即买单和卖单队列的dynamic相互独立），右图为真实股票CSCO的运动轨迹。

首先看真实股票的统计结果，考虑到真实样本在某些状态上的数量可能很少甚至缺失，所以这里将二维的转化为一维的queue imbalance ratio ，用来表示买卖队列长度的不平衡，而且无需再针对于不同股票和时间段做标准化。在真实数据上的统计结果如下所示，其中虚线为模拟数据的结果（两队列长度是独立的随机游走），可以看出虽然价格在下一次变动时为上涨的概率与呈正相关，但简单的随机游走模型还是与真实情况存在较大差异。

最后简单介绍一些joint-queue dynamics的建模思路：首先我们可以直接采用上一节的LOB模型，然后通过模型分别得到最优买单和卖单队列的first-hitting time，在一些极限条件下，价格在下一次变动时为上涨的概率，可以近似为：，结果如下图所示。更进一步，我们还可以直接建立二维的Fokker–Planck equation，来更加灵活地建模买卖队列之间的耦合关系（见原书7.4节），这里就不过多介绍了。

总结

这篇文章我们从浅到深介绍了一系列LOB的建模方法，这类模型在零智能建模假设下，通过对一些实际情况的理想化处理（例如large tick、连续性、spread等），实现了订单队列以及LOB的建模，推导出了一些重要的量（例如订单队列的概率分布、first-hitting time ），并由此可以研究高频交易中很关心的价格变动概率问题。其实，这类模型还能用来研究很多其他重要的问题，诸如估计队列中某一订单被执行的概率、在给定时间内价格上涨的速率等等，都可以套用这篇文章中介绍的模型框架来研究。

参考资料

Bouchaud J P, Bonart J, Donier J, et al. Trades, quotes and prices: financial markets under the microscope[M]. Cambridge University Press, 2018.