苏州地铁客流波动特性分析

本文作者彭培培 苏州轨道交通集团有限公司
高国飞，魏运北京城建设计发展集团股份有限公司
杨越思、郭建华东南大学智能运输系统研究中心
[h1]1 研究背景[/h1]乘客是轨道交通的服务对象，客流量和行为特性是决定轨道交通系统设计与运营的重要因素。在微观层面，波动性是轨道交通客流的重要特性，主要包括平均水平变化特征和离散变化特征。平均水平变化特征表明平均客流率随时间段的不同而不同；离散变化特征主要表达轨道交通客流的离散性或不确定性。以高峰小时客流为例，若高峰小时内客流率恒定在平均流率，则表明该时段内客流无离散现象，即客流没有不确定的变化，是一个确定值。然而，实际客流始终处于变化之中，可能高于或低于平均流率，呈离散现象，具有不确定性。
客流的平均水平变化特征分析即客流的一阶波动性分析，主要目的是分析客流平均值的演变特征，从而对客流平均值进行有效的预测。在交通流一阶波动性研究领域，国内外的研究人员已经提出了诸多理论和方法，以实现连续交通流状态的实时预测，主要包括历史平均、指数平滑、时间序列方法（包括ARIMA模型、SARIMA模型等）、谱分析方法、神经网络方法、K-近邻方法、支持向量机方法、卡尔曼滤波方法、灰色预测方法等，其中每一类预测方法又包含若干种预测模型。
由于地铁客流具有随机不确定性，为了便于决策者更好地做出决策，需要界定并充分表达这种离散特性，因此，在对客流平均水平变化特征进行分析的同时，应对客流的离散变化特征进行分析，即进行客流二阶波动性的分析。在此基础上，可对围绕客流平均值的客流变化区间进行预测。与交通流一阶波动性的研究相比，交通流二阶波动性的研究还处在起步阶段，常用方法主要有Bootstrap法、GARCH法和SV法。
由于轨道交通客流具有明显的周期性，而时间序列方法中的SARIMA模型适用于具有季节周期性的时间序列分析与建模；同时，GARCH模型能较好地处理非平稳及方差随时间变化的时间序列问题，可以得到较为准确的预测区间，具有显式结构，预测的实现过程依赖于完备的理论基础。因此，本研究使用SARIMA+GARCH模型进行轨道交通客流的一阶波性和二阶波动性的分析，对客流的一阶和二阶波动性进行建模和预测，分析客流的一阶和二阶波动性在时间上的分布特征和规律。
[h1]2 地铁客流波动特性分析方法[/h1][h2]2.1 地铁客流一阶波动性建模及预测[/h2]客流一阶波动性分析的主要研究对象为客流量的均值，处理客流时间序列的一阶矩。
SARIMA模型的建模过程包括平稳性分析及白噪声检验、模型的识别定阶、模型的参数估计和模型的检验等步骤，在此基础上，使用得到的SARIMA模型对拟合时间段内的客流量进行预测，得到客流量的预测值。SARIMA（p，d，q）（P，D，Q）S模型拟合的表达式为：

（1）
其中，t为时间指数；p为短时自回归多项式的阶数；q为短时滑动平均多项式的阶数；d为短时差分的阶数；P为季节性自回归多项式的阶数；Q为季节性移动平均多项式的阶数；D为季节差分的阶数；B为延迟算子，比如Bxt=xt–1；(1–BS)D为季节差分；(1–B)d为短时差分；f(B)=1–f1B–f2B2–…–fpBp为短时自回归多项式；q(B)=1–q1B–q2B2–…–qqBq为短时滑动平均多项式；
F(BS)=1–F1(BS) –F2(BS)2–…–Fp(BS)p为季节性自回归多项式；Q(BS)=1–Q1(BS) –Q2(BS)2–…–QQ(BS)Q为季节性滑动平均多项式；
为随机干扰序列，是均值为0、方差为
的白噪声序列。
因此，地铁客流一阶波动性的建模及预测流程如图1所示。

图1 一阶波动性建模及预测流程
[h2]2.2 地铁客流二阶波动性建模及预测[/h2]确定一阶波动性的SARIMA模型后，可通过计算真实值与预测值之差得到模型的残差序列，该残差序列也为典型的时间序列。对残差序列进行异方差性检验，若发现残差平方具有高度相关性，则说明残差序列具有ARCH效应，可对残差序列拟合GARCH模型。
通过异方差检验后方可建立GARCH模型，一般情况下，简单有效的GARCH（1，1）模型就足以描述大量的时间序列数据，于是在模型阶数已定的情况下进行参数估计，这里采用最大似然估计。在确定的模型阶数下，GARCH模型的建模步骤包括异方差性检验、模型识别、模型估计等。GARCH（1，1）模型拟合的表达式为：

（2）

其中，
为关于t的条件方差；
为正恒定系数；
为延迟样本方差
的非负系数；
为延迟条件方差
的非负系数。
在此基础上，使用得到的GARCH模型对拟合时间段内的客流条件方差进行预测，得到客流条件方差的预测值。由于预测受到其他各种随机因素的干扰，预测结果具有一定的不确定性，即二阶波动性。在这种情况下，为便于决策者更好地做出决策，应该更好地表达和体现这种不确定性。因此，在给出均值预测值的同时，计算一定置信水平下（一般选取95%）轨道交通客流的置信区间，研究其计算公式如下：

（3）
其中，PIt为客流预测值；
为客流预测值；
为客流条件方差的预测值。
因此，地铁客流二阶波动性的建模及预测如图2所示。

图2 地铁客流二阶波动性建模及预测流程

[h2]2.3 地铁客流波动特性分析与评价[/h2]选择平均绝对误差MAE和平均相对误差MAPE作为一阶波动模型性能评价的指标，MAE和MAPE的计算公式分别为

其中，N为客流预测值的数量；
为客流预测值；
为客流的实际观测值。
进行客流二阶特征建模的目的是构建围绕短时客流预测的预测区间，因此，通过对所构建的预测区间的优劣进行分析，以展示拟合模型的预测性能。无效覆盖率（kickoff percentage，KP）指实际观测值落入相应的预测区间外的百分比，若实际观测值落在预测区间外，则定义该预测区间为无效预测，无效覆盖率即为无效预测数占总体预测样本数的百分比。根据此定义，其计算公式为

其中，
为无效覆盖率；
为落在相应预测区间外的实际观测值的数量；N为实际观测值的数量。
顾名思义，无效覆盖率描述了预测区间覆盖实际观测值的能力，理想情况下，对于置信水平为95%的预测区间而言，其无效覆盖率应当接近5%。
由于异方差性的存在，使用GARCH模型预测得到的二阶波动值不是一个固定的值，而是一个变量，因此其预测95%置信区间宽度就会随着时间点的不同而发生变化。从式（6）可以看出，当条件方差波动较大时，同样置信水平下的预测区间变宽，反之预测区间变窄。而传统的模型中假定方差为常数，即同样置信水平下的预测区间宽度保持恒定。因此，异方差条件下，在给出围绕轨道交通客流预测均值的预测区间时，采用宽度流量比（ratio of prediction interval to flow，R）来评价预测区间的预测效果，将其定义为预测区间的宽度除以对应观测值的均值水平。根据此定义，每一个预测区间都可以求到一个比值，以揭示预测区间的性能，其计算公式为

式中：
为宽度流量比；
为预测区间宽度；
为客流的实际观测值。
宽度流量比显示了所构造预测区间宽度的合理性，为了更加精确地界定当前客流预测值的不确定性及客流波动性，应尽量得到较窄的预测区间。因此，宽度流量比接近于0时将会得到更为理想的预测结果。同时，宽度流量比的大小显示了客流预测值不确定性及客流波动性的强弱。
[h1]3 苏州地铁客流波动特性建模和预测[/h1]对苏州地铁全网5 min、15 min和1 h汇集度的工作日和休息日进站客流共6组客流数据分别进行一阶波动性建模、二阶波动性建模，根据得到的模型进行客流均值和方差的预测，得到客流的预测值和预测区间。
5 min客流波动性研究选取的研究时间段为2016年4月1日至6月30日，将每日自6：00—23：30共210个5 min时间间隔的进站客流数据作为研究数据；15 min客流波动性研究选取的研究时间段为2016年1月1日至6月30日，将每日自6：00—23：00共68个15 min时间间隔的进站客流数据作为研究数据；1 h客流波动性研究选取的研究时间段为2015年7月1日至2016年6月30日，将每日自6：00—23：30共17个1 h时间间隔的进站客流数据作为研究数据。
[h2]3.1 一阶波动性建模与分析[/h2]经平稳性分析、模型识别定阶、模型参数估计、模型检验等步骤后，得到了各时间汇集度下工作日客流和休息日客流的一阶波动性模型。由各汇集度下工作日和休息日客流拟合得到的SARIMA模型具有相同的阶数，均为SARIMA（1，0，1）（0，1，1）S模型，其中，S为各时间汇集度所对应的周期。各时间汇集度下工作日和休息日客流SARIMA模型的表达式如表1所示。
表1 一阶波动性模型汇总

注：各表达式中，passengern为时间编号为n时的客流值；
为步长为210的一阶季节差分；
为步长为68的一阶季节差分；
为步长为17的一阶季节差分；B为延迟算子；
为随机干扰序列。
针对各汇集度下的工作日和休息日客流，使用得到的SARIMA模型对拟合时间段内对应的客流量进行预测。计算出各汇集度下工作日和休息日客流SARIMA模型的MAE和MAPE，汇总如表2所示。
表2 平均绝对误差、平均相对误差汇总

可以看出，各汇集度下工作日和休息日客流预测值的平均相对误差均小于10%，保持在较小的水平。因此说明，拟合得到的各SARIMA模型能够较好地解释各汇集度下工作日和休息日客流的一阶波动特性。
MAE和MAPE的计算公式分别为

其中，N为客流预测值的数量；
为客流预测值；
为客流的实际观测值。
[h2]3.2 二阶波动性建模与分析[/h2]采用GARCH（1，1）进行客流的二阶波动性建模。经过异方差性检验、模型估计等步骤后，得到了各时间汇集度下工作日客流和休息日客流的二阶波动性模型。由各汇集度下工作日和休息日客流拟合得到的GARCH（1，1）模型的表达式如表3所示。
表3 二阶波动性模型汇总

注：各表达式中，hn为时间编号为n时的客流条件方差；
为正态分布的随机干扰序列。
针对各汇集度下的工作日和休息日客流，使用得到的GARCH模型对拟合时间段内对应的客流方差进行预测。在客流预测值的基础上，计算95%置信水平的客流预测区间。计算出各汇集度下工作日和休息日客流GARCH模型的无效覆盖率（KP），汇总如表4所示。可以看出，各汇集度下工作日和休息日客流预测区间的无效覆盖率均接近5％且保持在较低水平，符合95%置信水平的理想条件。因此说明，拟合得到的各GARCH模型在与各SARIMA模型的组合下，能够较好地解释各汇集度下工作日和休息日客流的二阶波动特性。
表4 无效覆盖率汇总

针对各汇集度下的工作日和休息日客流，计算所得到的各预测区间的宽度流量比。做出各自拟合时间段内最后5 d的宽度流量比与观测值的对比图，汇总如图3所示（需要说明的是：为更清晰地显示宽度流量比的变化趋势，图中所显示宽度流量比的范围为0～2，即宽度流量比大于2时会超出显示范围）。观察图3可发现，各对比图呈现类似特点：每日大部分运营时段，在客流量明显大于0的情况下，预测区间的宽度流量比保持在稍大于0的平稳状态；而每日夜间接近于运营结束的一段时间内，随着客流量接近于或等于0，预测区间的宽度流量比呈现增加趋势。由于宽度流量比越小时预测结果越理想，所以，拟合得到的SARIMA + GARCH模型在客流量明显大于0的情况下拥有更为理想的预测性能，而在客流量接近于或等于0的情况下会存在预测区间过宽的问题。但由于客流量在绝大多数时段都保持明显大于0的状态，因此，模型的预测性能在绝大多数时段都维持在较高水平。
[h2]3.3 客流波动特性对比分析与评价[/h2]3.3.1 工作日与休息日对比分析与评价
将工作日客流波动性的模型评价指标MAE（平均绝对误差）、MAPE（平均相对误差）及KP（无效覆盖率）分别与休息日客流相应的指标进行对比，如表5所示。观察该表可以看出，工作日的MAE、MAPE均小于休息日的相应指标值，故工作日客流的一阶波动性预测精度比休息日更高；工作日的KP值均小于休息日的KP值，故工作日客流的二阶波动性预测精度比休息日更高。
做出各汇集度下工作日与休息日客流日均宽度流量比的对比图（在各对比图中，5 min、15 min和1 h汇集度的工作日客流数据量分别与各汇集度下的休息日天数对应，选取各自研究时间段的最后28 d、58 d和114 d），汇总如图4所示。观察各对比图可发现，各汇集度下，休息日的宽度流量比大于工作日的宽度流量比。因此，在5 min、15 min和1 h的汇集度下，休息日客流的波动性均强于工作日客流。这是因为：相比于工作日受到工作（上学）时间的约束，出行时间固定、各时段的客流量变化可能性小，休息日的时间安排则相对自由，从而各时段出行的客流量变化可能性相对较大，因此，反应在预测区间上，便表现为休息日客流的宽度流量比大于工作日客流的宽度流量比。

图3 宽度流量比与观测值对比图汇总

表5 工作日与休息日模型评价指标对比

图4 工作日与休息日宽度流量比对比图汇总

3.3.2 不同汇集度对比分析与评价
将3种汇集度下客流波动性模型的评价指标MAPE（平均相对误差）和KP（无效覆盖率）分别进行对比，如表6所示。观察该表可以看出，15 min汇集度下的MAPE值最小，5 min汇集度下的MAPE值最大，因此15 min汇集度下的客流一阶波动性预测精度最高；5 min、15 min、1 h汇集度下的KP值呈现出递减的趋势，故1 h汇集度下客流的二阶波动性预测精度最高。
表6 不同汇集度下模型评价指标对比

针对工作日和休息日，分别作出各汇集度工作日客流日均宽度流量比的对比图（选取2016年3月1日至2016年6月30日的预测结果），汇总如图5所示。两对比图呈现出相同的特征：15 min和1 h汇集度客流日均宽度流量比较接近，1 h客流日均宽度流量比略小于15 min客流日均宽度流量比，二者均远小于5 min客流日均宽度流量比，即5 min客流的波动性及不确定性最大。这说明：在时间汇集度小的情况下，各汇集间隔内的客流变化的可能性更大，而时间汇集度较大时，各汇集间隔内的客流相对稳定。

图5 各汇集度客流日均宽度流量比对比图汇总
[h1]4 总结[/h1]使用SARIMA +GARCH模型对苏州地铁5 min、15 min和1h汇集度的工作日和休息日客流分别进行波动特性的建模和预测，并在此基础上进行了客流波动性的分析和对比。建模和预测的结果表明：拟合得到的各SARIMA模型能够较好地解释各汇集度下工作日和休息日客流的一阶波动特性；拟合得到的各GARCH模型在与各SARIMA模型的组合下，能够较好地解释各汇集度下工作日和休息日客流的二阶波动特性；模型的预测性能在绝大多数时段都维持在较高水平。通过工作日与休息日的客流波动性对比发现：工作日客流的一阶及二阶波动性预测精度比休息日更高；休息日客流的波动性均强于工作日客流。通过各汇集度的客流波动性对比发现：15 min汇集度下的客流一阶波动性预测精度最高、1h汇集度下客流的二阶波动性预测精度最高；在时间汇集度小的情况下，客流的波动性会更强，而时间汇集度较大时，客流的波动性相对较小。

文章来源：《都市快轨交通》2018年第2期

更
多
精
彩
中国城市轨道交通网

http://www.chinametro.net

请长按二维码关注