城市轨道交通以其快速、安全、高效的优势,已成为城市居民出行的核心选择,并在公共交通体系中发挥不可替代的作用。然而,随着客流量持续增加,客流拥挤、供需失衡等问题日益凸显。准确的短期客流预测对于减少客流拥堵、保障系统稳定运行具有关键意义。车站管理者可基于预测结果实施客流动态调控与引导策略,有效缓解站内拥挤并规避安全隐患。运营商可通过预测数据优化运力资源配置,提升服务效能以满足客运需求。乘客也可实时获取线路承载信息,从而优化出行决策并改善出行体验[1-3]。交通数据作为时间序列数据,早期研究主要采用逻辑回归模型(logistic regression)[4-5]、自回归积分平均模型(auto-regressive integrated moving average, ARIMA)[6]以及卡尔曼滤波模型(Kalman filter)[7]等统计模型,通过线性时序建模捕捉客流变化规律。然而,这些方法难以获取非线性特征且忽略了空间拓扑关联。为突破线性约束,研究人员采用了支持向量机(support vector machie, SVM)、BP神经网络等机器学习模型。许心越等[8]提出一种结合动态因子模型(DFM)和SVM的短时客流预测方法。惠阳等[9]利用粒子群对BP神经网络进行优化,提高了模型预测准确性。尽管上述方法提升了非线性建模能力,但对交通网络的空间依赖性建模仍依赖人工特征工程,难以自适应捕捉复杂的拓扑关系。随着深度学习的发展,其在交通预测领域得到了广泛运用。赵阳阳等[10-13]分别建立了长短时记忆网络(long short term memory, LSTM)和门控循环单元(gated recurrent unit, GRU)的地铁客流预测模型,并验证其有效性。MA等[14]提出一种基于经典卷积神经网络(convolutional neural network, CNN)的方法来预测交通速度。考虑到交通网络本质上是具有拓扑特征的图结构,许多研究将图卷积网络(graph convolutional networks, GCN)集成到预测模型中来建模空间依赖性。王雪琴等[15]通过融合GCN与注意力机制,增强了时空特征提取与模型可解释性。GAO等[16]提出个性化增强图卷积网络(P-GCN),通过可训练对角矩阵动态调控邻域聚合强度。唐郑熠等[17-20]构建异构关联矩阵,提取站点间多维空间关联性。WU等[21]通过超图结构学习动态成对和高阶空间关系。SHEN等[22]构建多超图结构,结合感知场与注意力机制,实现了顶点特征的高效提取与动态融合。现有方法在建模客流数据的复杂时空交互方面仍存在局限,而Transformer架构为时空依赖建模提供了新思路。禹倩等[23]通过集成Transformer和GRU,分别捕捉进出站客流时间依赖性,提升了短时客流预测精度。ZHANG等[24]利用因果卷积概率稀疏自注意力(CPSA)捕捉多尺度时序特征。YAN等[25]提出一种渐进式时空自注意力机制,将时空依赖分解为空间和时间依赖,显著减少计算量。现有研究主要基于数据驱动的邻接矩阵建模交通流的空间相互作用,通过动态邻接矩阵考虑空间依赖性随时间的变化,从而优化预测结果。尽管此类方法在交通流预测领域取得了一定进展,但仍存在对历史交通流时间序列数据中内在模式挖掘不足的问题。深入挖掘内在模式不仅能够提升对未来交通趋势和行为的预测精度,还能降低模型对训练数据中噪声的敏感性,有效缓解过拟合风险。为此,本文提出一种自适应时空分层网络的预测模型(adaptive spatio-temporal hierarchical network, ASTHN)。ASTHN模型通过时间聚合模块增强对时间周期性和趋势性的建模能力,并结合全对称结构的时空编码与重构模块,有效提取客流数据的时空特征和隐藏状态。该模型旨在提升历史客流数据模式的识别能力,增强对未来客流变化的预测精度,为城市轨道交通运营策略优化和服务质量提升提供有力支持。
1 问题描述
在时间序列分析中,本文采用基于滑动窗口的方法捕捉数据中的动态变化。如图1所示,该方法通过固定大小的滑动窗口来遍历历史客流数据集。例如,窗口大小为15时,那么窗口内的数据


本文基于历史进站客流数据来预测未来的进站客流量,其实质是一个同源时空序列预测问题。由于进站量在地铁网络中的分布和变化会直接影响未来的进站客流,因此,未来进站量与历史进站量之间存在显著的时空关联。假设在地铁系统中共有







2 自适应时空分层网络
ASTHN模型框架由时空聚合模块、时空特征编码模块和时空特征重构模块组成,如图2所示。输入数据首先进入时空聚合模块,其中自适应时间嵌入层学习时间模式,时间聚合层通过卷积操作提取时序特征;时空特征编码模块通过时空门控卷积层深入分析客流数据,结合扩张卷积和自适应图卷积[26]提取时空依赖性,并采用门控机制和跳跃连接确保信息有效传递和模型的稳定性;时空特征重构模块对称于编码模块,利用转置卷积将压缩的时空特征扩展至原始数据的维度,精确还原数据的时空结构,确保对未来客流变化的准确预测。

2.1 时间聚合模块
为提高模型对轨道交通不同时期客流模式的理解和记忆,本文提出一种时间聚合模块,该模块由自适应时间嵌入层与时间聚合层组成。
2.1.1 自适应时间嵌入层
如图3所示,不同站点的客流量在工作日和周末呈现显著差异,工作日表现出明显的早晚高峰,而周末客流分布相对平缓。为更好地捕捉客流数据的周期性和趋势性变化,自适应时间嵌入层通过可学习的嵌入技术,有效识别并适应客流量的周期性波动,增强模型对客流变化的自适应感知能力。

该模块采用one-hot编码来表示客流数据中的“day”和“week”的时间属性,生成2个时间编码:




其中,


随后,引入2个可训练的嵌入字典,分别是






式中:




2.1.2 时间聚合层
城市轨道交通客流数据具有复杂的时空特征,比传统时间序列数据更为复杂,增加了处理数据的计算负担。为此,本文设计一种时间聚合卷积层(temporal aggregation convolution, TAC)。与RNN和LSTM相比,TAC具有更高的参数效率,且其固定操作支持全数据序列的并行计算,相较于RNN和LSTM需要按时间步依次计算的方式,大幅提升了计算效率。
如图4所示,TAC模块是由多层二维卷积神经网络组成,它对输入的历史客流序列





其中,





2.2 时空编码模块与时空特征重构模块
为充分识别客流数据的内在模式特征并融入预测,本文设计了2个结构对称的关键模块,如图5所示:时空编码模块和时空特征重构模块。时空编码模块从原始数据中提取核心时空特征,而特征重构模块则利用这些特征来重建数据,确保提取的特征全面且准确。这种对称设计使得特征重构模块能够更精确地还原编码过程中提取的关键信息。

2.2.1 时空门控卷积层
在交通客流预测中,传统RNN难以获取客流数据的剧烈波动与复杂空间关系,而基于物理连接的图卷积网络也无法适应站点的动态关联。为此,本文提出时空门控卷积层(spatio-temporal gated convolutional, ST-GConv),该层融合扩张卷积、门控机制和自适应图卷积,有效捕捉客流数据的时空依赖性。ST-GConv通过门控机制提取关键时序特征,例如高峰时段的波动,并自适应地学习站点间的空间关系,挖掘潜在的客流关联。
1) 时间相关性
对于经过时间聚合处理后的历史客流数据,本文采用一种基于多层一维扩张卷积的方法,深入学习时间依赖性并有效压缩时间步长。通过设计不同伸缩因子和层数,模型获得更大的感受野,能够获取到客流数据中更为广泛的时空依赖关系。对于输入的客流特征矩阵



其中,




在此基础上,时空门控卷积层中加入门控机制,控制扩张卷积将有效信息传输到下一层。本文采用2种不同的扩张卷积对当前层的序列数据进行压缩,分别使用正切双曲函数和

其中,






2) 空间相关性
在传统图卷积网络中,邻接矩阵通常基于城市轨道交通网络的拓扑结构预设,限制了模型捕捉站点间实际空间依赖关系的能力。为克服这一限制,本文采用自适应图卷积网络,引入可训练的自适应邻接矩阵,自动学习并调整站点间的相关性权重。
构建城市轨道交通网络拓扑图,每个站点对应一个节点。在邻接矩阵中加入单位矩阵,强化节点自身特征,同时通过可学习的嵌入矩阵捕捉站点间的动态关联性,有效平衡节点自身特征与站点间相互作用。计算公式如下:


其中,







3) 残差连接与跳跃连接
在多层级连接中,结合跳跃连接与残差连接,提升模型训练稳定性与信息传递效率。该策略可以预防梯度消失,强化对原始数据时空特征的捕捉,并促进梯度传播。跳跃连接有助于识别长距离依赖,残差连接则确保信息和梯度的直接传递,使模型能够适应不同时间步长,增强处理复杂时空数据的能力。
由于各层隐藏状态对应的时间步长不同,基于残差连接的思想,在当前层进行扩张卷积和图卷积后,当前输入经过特定线性变换

其中,


其中,

2.2.2 时空特征重构层
时空特征重构模块采用与编码模块对称的结构,由多层时空特征重建层组成,包含自适应图卷积与门控机制,以保持特征重构过程与编码过程的对称性。这种设计使得重构模块能够更精准地还原编码模块提取的关键时空特征。此外,通过引入转置卷积操作,压缩特征被扩展至完整时空尺度,确保时空特征的高效重构与还原。该方法利用多层转置卷积操作,有效放大编码过程中压缩的时空特征,确保在数据重构阶段精确恢复原始数据的时空结构,即:

其中,




其中,



其中,





其中,

3 实验
3.1 数据集描述
本文选取杭州市2019年1月1日至1月26日期间3条地铁线路、80个车站的全日(6:00―23:00)进站客流数据作为实验对象。客流数据分别以15、30和45 min为粒度进行统计。实验中,按照6∶3∶1的比例将数据集划分为训练集、验证集和测试集。
3.2 基准模型与评价指标
为验证本文所提出的ASTHN模型的有效性,将其与多种单一模型和组合模型进行对比。单一模型包括历史平均模型(HA),长短时记忆网络(LSTM)、图神经网络(GCN)。组合模型包括基于注意力时的空图神经网络(ASTGNN)[27]、基于注意力的时空图卷积网络(ASTGCN)[28]、基于时空超图卷积模型(ST-HConv)[29]、物理-虚拟协作图网络(PVCGN)[30]。
为评估该模型相较于其他模型的性能,本文采用平均绝对误差





其中,





3.3 实验设置
在实验中,采用4个时间步的历史客流数据去预测下一个时间步的进站客流情况。实验所用硬件环境为NVIDIA RTX A4000,以Python语言和Pytorch框架来搭建调试模型。时间聚合层中的卷积层数


3.4 模型综合性能对比
实验设置3个预测时长,即15、30和45 min,以比较模型在不同时间粒度上的预测精度。实验结果如表1所示。结果表明,与多种传统和现代机器学习及深度学习模型相比,自适应时空分层预测模型(ASTHN)表现出最佳的预测性能。主要原因在于:首先,ASTHN采用先进的时间聚合技术和自适应时空编码模块,其全层级架构能够灵敏获取交通系统中的即时变化,避免单纯依赖历史数据均值,从而精准提取时空特征,显著提升客流预测精度。其次,模型通过自适应机制学习时间周期性和趋势性,以及站点间的动态关联性。自适应性使模型不仅能应对日常变化,还能适应突发事件和长期趋势变化,增强模型的灵活性与鲁棒性。
| 模型 | 15 min | 30 min | 45 min | ||||||
|---|---|---|---|---|---|---|---|---|---|
![]() | ![]() | ![]() | ![]() | ![]() | ![]() | ![]() | ![]() | ![]() | |
| HA | 37.23 | 56.83% | 63.51 | 37.45 | 59.22% | 63.89 | 37.12 | 57.34% | 62.36 |
| LSTM | 27.43 | 36.61% | 51.32 | 30.32 | 39.86% | 55.82 | 33.93 | 41.81% | 57.61 |
| GRU | 30.21 | 37.48% | 55.69 | 35.89 | 46.71% | 60.93 | 37.43 | 49.92% | 62.27 |
| GCN | 41.23 | 53.41% | 62.15 | 43.81 | 55.19% | 64.23 | 50.52 | 64.07% | 83.25 |
| ASTGNN | 27.67 | 33.26% | 56.3 | 29.05 | 34.43% | 57.9 | 30.31 | 35.28% | 58.33 |
| ASTGCN | 35.83 | 60.41% | 53.62 | 37.94 | 63.67% | 55.21 | 39.17 | 64.32% | 58.91 |
| ST-HConv | 22.91 | 32.88% | 36.23 | 25.29 | 34.42% | 39.69 | 26.31 | 38.15% | 41.21 |
| PVGCN | 23.71 | 30.23% | 46.12 | 25.67 | 34.52% | 49.19 | 29.24 | 36.81% | 52.13 |
| ASTHN | 17.87 | 22.79% | 33.48 | 19.43 | 23.73% | 35.04 | 20.67 | 23.81% | 36.52 |
3.5 性能分析
3.5.1 隐藏状态分析
为深入分析模型对客流序列内在规律的捕捉能力,本节对隐藏状态进行可视化处理。如图6所示,时空编码模块输出的隐藏状态具有2个特征维度,其随时间变化的趋势呈现出明显的周期性特征,表明模型成功捕捉到了交通流中的周期性规律。具体而言,投影前如图6(b)所示,历史隐藏状态在各维度上的值表现出高度相似性;投影后如图6(c),2个维度的值出现显著差异,表明隐藏状态中的信息在映射到未来状态时得到了有效扩展和增强。

3.5.2 单一站点对比分析
鉴于不同地铁站点的客流模式存在差异,预测效果在各个站点间可能会有显著不同。因此,本节选取3种不同客流特征车站,分别为A站点、B站点和C站点,评估ASTHN模型在车站级别的预测性能。根据图7的客流趋势可知,A站点可能靠近商业区,因其早晚高峰时段的客流量显著且规模庞大;B站点为大型换乘枢纽,实现多种交通方式之间的换乘;C站点则表现为一个典型的通勤站点。

1) 从图7(a)所示的A站点预测结果可见,ASTHN模型表现出优异的预测性能。在工作日,客流呈明显的早晚高峰特征,且早高峰的客流量显著高于晚高峰;而在周末,客流量相对平缓且低于工作日。预测结果表明,模型能够有效识别工作日的周期性特征,同时在非工作日的客流模式预测中也表现出较高的准确性,验证了该模型对不同客流模式的适应能力。
2) 图7(b)展示了B站点的客流预测性能,ASTHN在该站点的预测中表现良好。与其他站点不同,B站点没有明显的通勤特征,其客流量明显高于其他2个站点。尽管客流量较大,但模型仍能准确预测其周期性变化,表明模型在处理高客流量站点时具有较强的鲁棒性。
3) 图7(c)展示了典型通勤车站C的客流预测结果。无论是整体趋势还是局部波动特征,ASTHN模型均表现出良好的预测性能。在工作日,该站点呈现出明显的早晚高峰特征,且早高峰客流量显著高于晚高峰。模型在C站点的预测结果与真实值高度一致,尤其在早晚高峰时段的预测精度较高,表明其能够有效获取通勤站点的周期性特征。
3.5.3 消融实验
为深入理解ASTHN模型中各模块的作用与重要性,本节设计了一系列模型变体,并与原始模型进行对比分析。具体变体包括:1) w/o GU表示移除了原模型的门控机制,采用直接输入的方法。2) w/o GCN表示移除原模型的自适应图卷积,采用传统的图卷积网络。3) w/o TE表示移除自适应时间嵌入。4) w/o SKIP表示取消跳跃连接机制。5) w/o EncHalf表示时空编码模块层数减半。6) w/o AllHalf表示时空编码模块与重构模块层数对称减半。7) w/o I表示移除邻接矩阵中的单位矩阵。
如图8所示,ASTHN模型的每个模块均对提升模型性能起到关键作用。实验表明:移除门控单元(w/o GU)后,







为进一步验证自适应时间嵌入的有效性,构建了STHN模型,将ASTHN模型的自适应时间嵌入层替换为传统的时间嵌入层,输入数据是历史客流序列和时间特征矩阵。如表2所示,可知自适应时间嵌入相较于传统时间嵌入显著降低了预测误差,


| 模型 | 评价指标 | 时间粒度 | ||
|---|---|---|---|---|
| 15 min | 30 min | 45 min | ||
ASTHN (自适应时间嵌入) | ![]() | 18.87 | 21.89 | 22.52 |
![]() | 20.73% | 24.67% | 29.23% | |
![]() | 33.48 | 36.23 | 38.15 | |
STHN (传统时间嵌入) | ![]() | 20.12 | 22.34 | 24.83 |
![]() | 25.27% | 25.63% | 31.25% | |
![]() | 35.04 | 37.71 | 40.68 | |

4 结论及展望
1) 针对复杂时空依赖关系的建模难题,提出自适应时空分层网络(ASTHN)模型。通过捕捉和融合空间分布、拓扑相关性和时间周期性等固有模式,提高客流预测的准确性和鲁棒性。
2) ASTHN模型通过自适应时间嵌入层和时间聚合卷积层,有效应对不同时间段的客流波动;同时,时空编码模块和重构模块深入挖掘客流数据的时空依赖性,提升模型对复杂时空关系的建模能力。此外,模型的全对称结构和模块化设计确保特征提取与重构的高效性和准确性,使其在不同站点和客流模式下均表现出优异的预测性能。
3) 实验采用杭州市地铁客流数据,时间粒度分别为15、30和45 min。通过与多种基线模型对比,ASTHN模型在


在实际情况中,客流量不仅受到时间、空间因素的影响,还受到天气、节假日等外部因素的干扰。未来的研究将结合多模态数据,如气象数据、节假日信息、特殊事件等,以丰富模型的输入信息,提高预测的准确性和鲁棒性。
曾璐,江子璇,彭东良等.基于自适应时空分层网络的城市轨道交通站点客流预测[J].铁道科学与工程学报,2025,22(10):4436-4448.
ZENG Lu,JIANG Zixuan,PENG Dongliang,et al.Urban rail transit station passenger flow prediction based on adaptive spatio-temporal hierarchical network[J].Journal of Railway Science and Engineering,2025,22(10):4436-4448.











