Transformer驱动的复杂山区铁路多维环境智能选线方法

轨道与基础

Transformer驱动的复杂山区铁路多维环境智能选线方法

王光辉，

蒲浩，

宋陶然，

张洪，

李伟，

胡建平，

乔俊飞

铁道科学与工程学报

第22卷, 第10期

pp.4476-4488

纸质出版 2025-10-28

DOI：10.19713/j.cnki.43-1423/u.T20242035

中图分类号：U212.3

15707

线路设计是铁路建设总揽全局的核心任务。随着铁路建设环境日益复杂，传统线路优化方法难以兼顾多维环境因素之间的耦合关联影响导致搜索效率降低或性能退化。为此，本文提出Transformer-蒙特卡洛树搜索线路优化方法：1) 首先构建蒙特卡洛树搜索框架协调整体线位与局部工点间的权衡设计，然后定制多维环境因素的混合模态表征方式，设计Transformer选线策略网络捕捉环境因素间的耦合关系，挖掘多维环境因素与定线动作间的映射规律，指导复杂山区蒙特卡洛树搜索的整体线路优化。2) 为了全面表征线路优化所需的多维环境因素，甄选“技术标准-地形特征-地质风险-地表覆盖-经济指标”作为选线决策的考量框架，设计数值与图像混合模态的表征方式，为智能选线提供完善的环境信息支持。3) 基于此，为构建环境因素与定线动作间的映射关系，定制了Transformer选线策略网络，通过注意力机制捕捉多维环境因素之间的长距离依赖关系，自回归地生成连通起终点的线路方案，用于指导整体线路优化中蒙特卡洛树的搜索方向。将提出的方法应用于某山区铁路选线，实验结果表明，该方法在多维复杂环境下生成了全局优化的线路方案，工程费用相比于人工方案降低了3.06%，搜索效率相比于传统蒙特卡洛树搜索提升了28.3%。该方法提升了复杂山区的铁路线路优化质量和效率，为多维环境因素下的智能选线提供了新的研究思路和应用参考。

铁路线路优化Transformer注意力机制蒙特卡洛树搜索深度强化学习

选线设计作为铁路建设中的核心工作，对施工、运营及维护有深远影响。通常，三维线路的空间位置由一系列交点表示，包括平面交点和纵断面变坡点。通过在各交点上设置曲线生成三维线路方案，并在满足约束条件的前提下设置沿线结构物(如桥梁、隧道和路基)^[1]。因此，选线设计的核心任务是确定研究区域内最优交点位置及曲线配置。由于选线环境多样、搜索空间庞大且受复杂约束条件限制，线路设计往往复杂且耗时。理论上，2个指定端点之间存在无数条可能线路。但传统人工设计以设计者经验为主，由于时间和资源有限，工程师可能会忽略潜在有价值的线路方案。为解决上述问题，自20世纪60年代起，研究者开始致力于铁路与公路的线路优化研究，并在近年来对研究成果进行了综述^[2]。具体而言，最早的数学分析方法包括变分法、枚举法和网络优化，但受限于当时的软件与硬件能力，这些方法的应用效果有限。近年来，除了利用样条曲线直接表示线路外^[3]，基于交点信息的三维线路刻画和优化方法更为常见^[4]，主要包括切割面法^[5-6]、格网扫描法^[7]与拓扑图法。切割面法的核心思想是在研究区域2个端点间沿航空线设置一系列正交切割面，并在切割面上优化交点。遗传算法是该领域的代表性方法，源于自然选择与适者生存的启发式理念。从JONG等^[8]起，马里兰大学研究团队开发了一系列基于遗传算法的线路优化方法，推动了该领域的持续发展^[9]。除遗传算法外，粒子群优化也是常见的切割面法^[4]。这些切割面法在地形相对简单的区域表现良好，但在复杂山区难以合理设定切割面分布及数量，这限制了它们的实际应用^[10]。为此，研究人员提出了格网扫描方法以优化交点分布。其基本思路是将研究区域离散为地理信息系统(GIS)格网，扫描各格网以找到局部最优路径，并通过局部路径传播生成端点间的全局最优路径。距离变换(DT)是这一领域的代表方法，由SMITH^[11]首次引入。针对山区铁路的复杂约束条件，LI等^[12]改进了DT方法，提出了双向扫描的二维距离变换(2D-DT)。PU等^[13]将其扩展至三维距离变换(3D-DT)。随后，SONG等^[1]通过并行化技术和OpenMP库进一步提升搜索速度。格网扫描法为线路交点布设提供了可靠参考。然而，随着勘察设计水平和GIS数据精度的提升，DT算法对格网尺寸表现出显著的时间敏感性。此后，研究人员提出一系列拓扑图法来提高复杂山区铁路选线的搜索质量和效率，Dijkstra算法是最经典的拓扑图法之一，最初用于求解最短路径问题^[14]，并被引入线路优化领域^[15]。近年来，铁路选线优化的最新研究涌现了多种快速探索随机树(RRT)变体。例如，SUSHMA等^[16]将RRT与顺序二次规划结合，对公路平面线形进行费用-环境影响双目标优化，YANG等^[17]将差分进化算法融入RRT，以优化地铁线路的工程费用。随后，PU等^[18]提出了三维RRT线路搜索算法，用于优化铁路线路的工程费用和搜索效率。上述线路优化方法通过逐步优化实现了线路方案。然而，这些方法往往过于依赖局部的计算与调整(如依赖于贪婪策略或者随机启发算法)，而对未知的全局态势缺乏感知，导致算法容易陷入局部最优。选线设计是铁路建设总揽全局的核心工作，不仅要考虑局部线路设计，还需统筹线位布局，以考虑局部设计与整体布局之间权衡。例如，在复杂山区铁路中，考虑到整体桥隧结构物布局，工程师往往需要展长线路而不是选择局部短直的方案，以克服巨大的高程障碍。因此，整体与局部设计权衡、全局方案优化是铁路线路优化领域亟待解决的2个关键问题，并且这些问题在众多优化研究难题中具有普遍性。为了解决整体与局部优化的权衡问题，COULOM^[19]首次在优化领域提出了蒙特卡洛树搜索(MCTS)算法。MCTS通过构建搜索树，在利用树内最优方案历史数据进行局部优化的同时，从整体角度不断探索潜在有价值的方案并评估其质量，从而有效降低算法在庞大搜索空间中陷入局部最优的风险。MCTS框架的典型应用案例是AlphaGo智能体^[20]，其在2016年首次战胜人类围棋冠军李世石，在复杂多变的棋局搜索中展现了超越人类专家的决策能力。在铁路选线领域，ZHANG等^[21]首次将MCTS引入了线路优化问题，通过权衡变坡点的局部设计与整体分布，实现了铁路线路纵断面的高效优化。针对全局方案优化问题，准确感知全局态势并识别潜在有价值的方案是实现全局最优解的关键。为此，BELLMAN^[22]提出了贝尔曼方程，并由此发展出一系列基于价值迭代^[23]和基于策略梯度^[24]的强化学习方法。这些方法通过智能体与环境的交互，建立奖励信号的反馈机制，逐步优化全局目标。近年来，研究人员将深度强化学习方法引入线路优化中^[25]，通过准确评估局部线路设计在全局线路中的价值来指导优化过程，并成功应用于实际选线案例中。然而，随着铁路建设环境从平易地区转向艰险山区，设计环境日趋复杂，设计标准日益严苛，为线路智能优化带来了巨大挑战。1) 剧烈变化的地形起伏使得平面或纵断面线路优化方法^[21]往往需要多阶段线位调整，难以适应复杂地形条件下的工程设计需求，这促使平纵一体化的三维选线设计成为优化复杂山区线路的关键策略；2) 铁路线路设计决策不仅需要整合多维环境因素，还需充分考虑各因素之间的相互依赖关系。现有深度强化学习选线方法^[25]在考虑多维环境特征间的相互关系上存在局限，导致样本学习效率较低或泛化能力较弱，尤其是在复杂山区环境中。为应对上述挑战，本文提出了以下研究框架和方法。1) 针对起伏剧烈的地形条件，基于平纵一体化的设计理念构建了三维蒙特卡洛树搜索框架。该框架在优化过程中不仅充分利用局部线路设计的历史反馈数据，同时持续探索全局搜索空间中潜在优质线路方案，从而权衡线路的整体布局与局部设计，实现复杂山区三维铁路线路的高效优化；2) 考虑到输入特征间的复杂关联性，本文引入Transformer的自注意力机制，该机制能够同时关注整个输入特征空间并动态学习各位置间的依赖关系。近年来，Transformer在自然语言处理和计算机视觉等领域展现出强大的长距离依赖建模能力。基于此，本文设计了定制化的Transformer选线策略网络，通过综合考虑多维环境因素间的耦合作用，深入挖掘复杂环境特征与空间线位之间的映射关系，从而从全局视角为蒙特卡洛树的搜索方向提供指导。综上所述，本文提出一种Transformer-蒙特卡洛树搜索方法(Transformer-MCTS)。首先构建了MCTS三维线路优化框架，设计选线UCT函数动态权衡线路搜索时的全局“探索”与局部“利用”。然后，提出了选线多维环境因素表征方法，构建了Transformer选线策略网络，通过建立注意力机制全面捕捉多维环境因素之间的依赖关系，指导MCTS在全局搜索空间中“探索”潜在有价值的线路方案，生成全局优化的三维线路。

1 优化模型

优化模型是对工程问题的数学抽象。本节简要介绍本文使用的铁路线路优化模型，因优化模型在文献[13]中已详细阐明，此处不赘述。该模型可概括为3个方面：设计变量、目标函数和约束条件。

1.1　设计变量

如前言所述，三维铁路线可以用平面交点和纵断面变坡点来刻画。在该模型中，平面交点的特征包括坐标X、Y、平面曲线半径R和过渡曲线长度Lt。纵断面变坡点的特征包括里程K和设计标高H。需要说明的是，根据《铁路线路设计规范》(TB 10098―2017)确定R后，可直接得出Lt的值^[26]。因此，本文中未将Lt作为变量，基本的铁路线路优化问题即简化为寻找优化线路的X、Y、R、K、H向量。

1.2　目标函数

本文采用铁路线路的工程建设费用(F_cost)作为目标函数，可表示为

(1)

其中，F_cost包括土方工程造价Ce、桥梁造价Cb、隧道造价Ct、征地费Cr，以及与线路长度相关的结构造价Cl(如轨道)；计算这些成本组成部分的详细公式见参考文献[12]。

1.3　约束条件

铁路线路在设计中受到许多约束条件的限制。这些复杂的约束条件可分为几何约束、位置约束和结构物约束。几何约束主要包括平面圆曲线的最小半径和长度、最小夹直线长、最大坡度、最小坡段长以及相邻坡段最大坡度代数差。位置约束包括禁区、环境敏感区域以及铁路穿越现有河流或铁路时的净空限制。结构物约束主要包括大型桥梁和隧道施工相关的约束。由于目前施工技术和经济条件的限制，铁路的桥梁高度和隧道长度不能超过最大值。综上所述，铁路线路优化模型可表达为

(2)

其中，G指几何约束；L指位置约束；C指结构物约束。

2 Transformer-蒙特卡洛树搜索方法

针对多维选线环境因素间的关联依赖问题带来的挑战，本文提出了Transformer-MCTS线路优化方法。构建了MCTS线路优化框架，改进了UCT函数以在线路搜索时动态权衡“探索”与“利用”，迭代地优化全局线位；为了在“探索”阶段捕捉多维环境因素之间的依赖关系，提出了选线多维环境表征方法，设计了Transformer选线策略网络建立多维环境与定线动作间的映射关系，指导MCTS的“探索”方向，进一步提升复杂多维环境下线路优化方法的性能。

2.1　MCTS线路优化框架

为了解决广域搜索空间中的线路高效优化问题，本文构建了蒙特卡洛树搜索(MCTS)线路优化框架，设计了UCT函数在线路搜索时动态权衡“探索”与“利用”，以优化全局线位。具体而言，蒙特卡洛树搜索通过不断执行“选择-扩展-模拟-回溯”的循环(图1)，逐步优化全局线路方案。

图1

MCTS线路优化框架概览图

1) 选择

MCTS的第1步是在搜索树上选择当前评估中最有价值的节点。这是通过使用选择策略来完成的，最常用的选择策略是置信上界树(UCT)：

(3)

其中，v表示父节点；vi为第i个子节点。等式右侧的第1项Qi,ave称为利用项，表示节点vi被探索若干次后的已知线路的平均价值。第2项是探索项，当父节点的探索次数为N(v)时，若N(vi)较低，则节点vi的探索价值较高，探索项的值也随之增大。系数C用于权衡“探索-利用”，当C较大时，MCTS更多地探索潜在的线路方案(倾向于“广度优先”)，从而更为全面地搜索解空间；而当C较小时，MCTS则更多地利用已有的线路方案进行决策(倾向于“深度优先”)，以促进算法的快速收敛。

2) 扩展

选择一个父节点后，MCTS通过在蒙特卡洛树中添加一个子节点来扩展该节点，子节点代表父节点的潜在搜索方向和行动。通过扩展，蒙特卡洛树不断生长和延伸，以充分探索搜索求解空间。

3) 模拟

模拟旨在评估当前节点到终点的全局奖励。全局奖励指的是，在MCTS路径搜索过程中，算法不仅要考虑在选择和扩展步骤中现有节点的局部奖励，还要考虑从当前节点到终点的潜在奖励。通过反复执行模拟，MCTS逐步深入了解不同可能的线路轨迹，并估算出MCTS节点从当前节点到终点全局奖励的期望值。

4) 回溯

模拟得到的结果通过树进行回溯，更新从扩展节点到起始节点路径上所有节点的统计数据。回溯步骤的目的是改进对每个节点的目标函数值和访问次数的估计，在选择阶段使用这些数据来指导全局探索和局部利用的动态平衡。

通过循环执行这4个步骤并逐步建立搜索树，MCTS可以实现对研究区域的有效探索。

2.2　多维环境表征方法

本研究提出了一种融合Transformer的铁路线路优化方法，通过对多维环境的表征和多模态特征的提取，直接建模复杂环境特征与空间线位之间的关系，以提升复杂山区铁路环境下的线路优化性能。

本节主要阐述线路优化问题中涉及的多维环境因素及其表征方法。具体来说，本文主要考虑的多维环境因素包括5类(见表1)。地形特征、地质风险、地表覆盖和经济指标4类环境因素在研究区域内的不同位置具有不同的取值，因此需要基于空间位置以图像进行表征。将研究区域划分为GIS格网，每种环境因素通过GIS网格的方式进行表征，以体现其在空间中的分布模式。而设计标准类因素是线路设计重要的全局性指标，适合通过数值表征处理。

多维环境因素及其表征

项目	内容	表征模态
设计标准	设计速度、最小曲线半径、最大坡度等	数值型
地形特征	高程、坡度、坡向	图像型
地质风险	崩塌、滑坡、泥石流、地震风险	图像型
地表覆盖	归一化植被指数	图像型
经济指标	路基、桥梁、隧道等工程费用标准	图像型

展开更多

1) 设计标准类

主要技术标准作为线路设计的前提条件，对线路质量存在根本性的影响。其中主要包括设计速度、最小曲线半径、最大坡度、牵引种类、机车类型、到发线有效长等。

2) 地形特征类

地形类信息主要指研究区域的地表高程、坡度和坡向。高程主要由数字地面模型获取。基于规则数模容易获取到对应GIS格网的对应高程。

3) 地质风险类

地质灾害，如崩塌、滑坡、泥石流等，对铁路线路设计具有重要影响，尤其是在艰险山区。通过在GIS格网中标记不同的地质灾害类型，可以生成多通道的地质灾害图。例如，在泥石流通道图中，可以将受灾区域的网格标记为1，其他区域标记为0，从而形成泥石流分布的灰度图。

4) 地表覆盖类

山岭地区生态环境脆弱，高铁建设应尽可能降低对植被和水土的破坏程度，保持生态环境的稳定性。NDVI(normalized difference vegetation index)是遥感领域广泛应用的归一化植被指数，可用于检测植被生长状态和植被覆盖度。NDVI值在-1到1之间，负值表示地面覆盖为水、雪等，0表示岩石或裸土等，正值则表示有植被覆盖，且随覆盖度增大而增大。

5) 经济指标类

经济指标是线路方案评估中的重要组成部分，包括路基、桥梁、隧道、征地、轨道等工程费用。在特殊区域(例如，地震易发区、林地、湿地等)内，上述费用与一般费用标准有所差异。因此，需要在特殊区域所包含的GIS格网内记录其工程单价，这些数据构成了综合地理信息模型的经济类信息。

2.3　多模态特征提取与融合架构

本节设计了Transformer选线策略网络，以建立多维环境与定线动作的映射关系。首先基于卷积神经网络(CNN)和全连接网络(FCN)分别提取图像和数值模态输入的特征。如图2所示，图像特征的提取过程中，为了解决深层网络训练中常见的梯度消失问题，引入了深度残差神经网络(ResNet)，促进训练信号梯度的传播与网络参数更新。此外，考虑到研究区域环境输入的尺寸差异，设计了空间金字塔池化(SPP)模块，以提取不同尺度的图像特征。最终，提取到的图像和数值特征将被输入到Transformer模块进行融合，训练过程中将不同模态的特征映射到统一的多模态表征空间中，以提升模型对多维环境因素数据的理解和利用能力。

图2

多维环境下考虑特征长距离依赖关系的选线策略网络

模型的输入层由3部分组成。第1部分是多维环境因素(图像型环境输入)，尺寸为H×W×C，其中H和W分别表示图像的高度和宽度，C为图像的通道数。该多通道图像除了包括表1中列出的4类图像型环境输入外，还包括铁路区间的起终点形成的二值图，即起点或终点位置为1，其他位置为0；第2部分是主要设计标准(数值型环境输入)，如设计速度、最小曲线半径、限制坡度等，它们为选线设计提供了必要的前提条件；第3部分则是既有线路的几何表征(既有线路输入)，用一系列三维关键点表示。它们与多维环境因素一起，影响定线动作的综合决策。

其次，本文在特征提取部分(图3(a))设计了深度残差神经网络(ResNet-34)与空间金字塔池化模块(SPP)以提取图像特征(图像特征提取模块)。如图3(c)所示，ResNet-34能够通过残差学习维持稳定的误差梯度，有效避免了深层网络中部分模块梯度消失导致的训练不稳定问题。此外，为了适应不同规模的铁路研究区域，设计了一个3级池化窗口的空间金字塔池化(SPP)模块(图3(b))。该模块通过对输入进行不同尺度的池化，池化后的特征图将被拼接成统一维度的图像特征向量，从而捕捉多尺度的环境图像特征。

图3

多通道环境图像特征提取模块

数值特征通过全连接层(FC层)进行处理(数值特征提取模块)，输入为数值型的主要技术标准。经过高维隐空间映射后，这些数值特征与图像特征在通道维度上对齐，并与图像特征向量拼接，形成融合的多模态环境特征向量，以促进模型对多模态数据的综合理解。

然后，Transformer基于融合后的多模态环境输入，在既有线路的基础上，自回归地插入交点，生成线路方案(如图2所示)。Transformer主要包含编码器和解码器2个部分，它们都通过注意力层捕捉多维环境因素/空间线位间的相互依赖关系：

(4)

其中，Q、K、V均为输入(多维环境因素或空间线位)经过线性变换后的特征向量。Q(Query)表示查询向量，通常用来指定需要关注的信息；K(Key)表示键向量，作为关键特征的向量表示；V(Value)则是与键对应的值向量，包含输入特征的具体信息。公式中的QK^T通过点积和Softmax函数计算Q和K之间的注意力权重，用于衡量Q与K中每个因素特征之间的相关性。最终，这些权重被用于对值向量V进行加权求和，旨在将注意力聚焦于与当前任务最相关的信息。模型输出的定线动作使用下一交点与当前交点间的相对位置表示，包括平面步长、平面方位角和纵断面坡度。为了更精细化地考虑三维空间线位，本文基于最小坡段长设置平面步长，以增强线路对多维环境的适应能力，并在完成搜索后进行线路平面和纵断面的拟合。本文基于Transformer的选线策略网络参数如表2所示。

Transformer选线策略网络主要参数

参数	值	参数	值	参数	值
编码与解码的隐空间维度	512	全连接层层数	160	残差神经网络层数	34
Transformer层数	40	全连接层单层神经元数量	2 048	残差块的卷积核尺寸	3×3

展开更多

通过融入Transformer选线策略网络，提出了Transformer-MCTS线路优化方法，聚焦定线动作决策的关键环境特征，以克服多维环境输入的长距离依赖问题，高效探索有价值的线路方案；并通过MCTS动态权衡对已知线路的经验利用和对潜在线路的探索，迭代生成优化的全局线路方案。

基于提出的Transformer-MCTS，可以生成全局优化的三维路径方案。然而，由于路径方案难以满足铁路线路的设计和运营要求，本文采用平纵分步的方法，通过弦切支距法优化平面线形，并使用投影里程与高程拟合纵断面线路，将路径方案转化为线路方案，得到最终优化的三维线路方案^[18]。

3 案例研究

3.1　案例简介

本研究提出的Transformer-MCTS方法被实际应用于中国西部某山区铁路HT-KXW区间。起点和终点之间的直线距离为41.6 km。研究区域地形起伏剧烈，最大高差超过了3 000 m(图4(a))。克服巨大的高程障碍，高桥长隧成为该区间主要的沿线结构物，这显著提高了建设难度与投资成本。铁路设计速度为160 km/h。研究区域数据来源于地理空间数据云，设计标准与人工方案由中铁二院工程集团有限责任公司提供。根据《铁路线路设计规范》(2017年)^[26]，竖曲线半径定为15 000 m。铁路设计的约束条件和费用信息见表3和表4。

图4

A_M、A_MCTS和A_{Transformer-MCTS}的线路平面比较

约束条件

项目	值	项目	值
最小平曲线半径/m	2 000	限制坡度/‰	20
最小圆曲线长/m	100	相邻坡段最大坡度代数差	15
最小夹直线长/m	100	最小坡段长/m	250
到发线有效长/m	650	最大隧道长度/km	15
禁区数量/个	4	最大桥梁高度/m	150

展开更多

费用信息

项目	单价	项目	单价
轨道/(元∙m^-1)	5 200	征地费/(元∙m^-2)	82
填方/(元∙m^-3)	35	挖方/(元∙m^-3)	32
(H>50 m，L>1 500 m) 桥梁/(10⁴元∙m^-1)	6.4	(L>15 000 m)隧道/(10⁴元∙m^-1)	12.0
(H>50 m，1 000 m<L≤1 500 m)桥梁(10⁴元∙m^-1)	5.8	(10 000 m<L≤15 000 m)隧道/(10⁴元∙m^-1)	9.7
(H>50 m，500 m<L≤1 000 m)桥梁(10⁴元∙m^-1)	4.7	(5 000 m<L≤10 000 m)隧道/(10⁴元∙m^-1)	7.6
(H<50 m，L>500 m)桥梁(10⁴元∙m^-1)	3.2	(L≤5 000 m)隧道/(10⁴元∙m^-1)	4.4
(H<50 m，L≤500 m)桥梁(10⁴元∙m^-1)	1.9	洞门/桥墩/(10⁴元∙个^-1)	21.0

展开更多

3.2　优化结果

本文实验部分使用C++与Python混合编程，并在配备英特尔I9-13900KF CPU @3.00GHz、128 GB内存和NVIDIA GeForce GTX4090 GPU的计算机上运行。为了测试本文提出新方法的性能，分别将传统MCTS方法、Transformer-MCTS方法应用于上述铁路案例中，它们分别消耗了18.4 min、13.2 min优化线路方案。将Transformer-MCTS生成的优化线路(以下简称A_{Transformer-MCTS})与传统MCTS生成的优化线路(A_MCTS)、中铁二院经验丰富的工程师手工设计的线路(AM)进行了比较。传统MCTS搜索方法在2.1节进行了介绍。A_M、A_MCTS、A_{Transformer-MCTS}的平面和纵断面线路如图4～7所示。详细对比结果见表5。

图5

A_M线路纵断面

图6

A_MCTS线路纵断面

图7

A_{Transformer-MCTS}线路纵断面

A_M、A_MCTS和A_{Transformer-MCTS}的详细比较

项目	A_M	A_MCTS	A_{Transformer-MCTS}
长度/m	46 247	46 279	44 887
征地/m²	125 756	180 188	142 241
填方数量/m³	62 416	108 463	452 894
挖方数量/m³	195 876	267 995	627 253
(H<50 m，L≤500 m)桥梁/数量-长度/m	9-2 749	6-1 615	9-1 905
(H>50 m，500 m<L≤1 000 m)桥梁/数量-长度/m	3-1 897	4-2 703	3-2 161
桥梁总数/数量-长度/m	12-4 646	10-4 318	12-4 066
(L<5 km)隧道/数量-长度/m	13-26 032	10-25 025	12-22 781
(5 km<L≤10 km)隧道/数量-长度/m	2-13 456	2-13 235	2-14 072
隧道总数/数量-长度/m	15-39 488	12-38 259	14-36 853
总造价/百万元	2 572	2 534	2 493
节省造价/百万元	―	38	79
节省造价占总造价的百分比/%	―	1.48	3.06

展开更多

A_MCTS的线路长度几乎与A_M相同。虽然A_MCTS挖填方工程量高于A_M，但它的总隧道长度相比于A_M减少了1 229 m，最终降低了1.48%的建设费用，相比于A_M节省了3 800万元投资。相比于A_MCTS，A_{Transformer-MCTS}线路长度缩减了1.4 km。同时，A_{Transformer-MCTS}桥梁和隧道分别比A_MCTS减少了252 m、1 406 m，缩减占比5.84%、3.67%，显著优化了桥梁与隧道沿线结构物的布局。综合上述因素，A_{Transformer-MCTS}的建设成本相比A_MCTS降低了1.62%，相比A_M降低了3.06%。此外Transformer-MCTS相比传统MCTS缩减了28.3 %的搜索时间，显著提升了线路优化效率。上述优化效果得益于Transformer对多维环境因素间长距离依赖关系的捕捉和综合感知，以及DRL基于全局奖励的自监督学习和MCTS对全局线路的迭代优化。实验结果表明，Transformer的引入有效克服了既有MCTS算法在多维复杂环境中遇到的长距离依赖问题，Transformer-MCTS方法中Transformer与DRL、MCTS的有机结合进一步提升了算法在复杂山区的三维线路优化性能，验证了该方法在实际铁路线路设计中的应用价值。

4 结论

1) 提出了Transformer-蒙特卡洛树搜索(Transformer-MCTS)线路优化方法，构建了三维蒙特卡洛树线路搜索框架，动态协调全局搜索空间中对潜在优质方案的探索和对局部设计历史数据的利用，实现了整体线位与局部设计的权衡。

2) 为了解决全局线位探索中多维环境因素之间的长距离依赖问题，全面构建了“技术标准-地形特征-地质风险-地表覆盖-经济指标”的环境因素表征框架，设计了基于残差神经网络与金字塔池化的选线图像特征提取模块，并定制了Transformer选线策略网络，通过注意力机制构建多维环境融合特征与定线动作的映射关系，指导蒙特卡洛树在全局决策空间的线路搜索方向。

3) 将提出的方法应用于某山区铁路选线，工程费用相比于人工方案降低了3.06%，搜索效率相比于传统蒙特卡洛树搜索提升了28.3%，结果表明，该方法在多维复杂环境下生成了全局优化的线路方案。

西部大开发和“一带一路”的深入推进，为广域空间线路设计带来了海量搜索空间的难题。在本文提出的Transformer-MCTS基础上，扩展Transformer选线策略网络规模和改进网络模块结构，并针对不同选线环境特点设计MCTS的“探索”策略，例如紧坡地段的导向线定线法、稠密约束下的逐点插入法，将进一步改进Transformer-MCTS融合方法的线路搜索质量，并提升大规模复杂环境下的线路优化效率。同时，这些深入研究将增加线路优化方法的可解释性，可促进人机交互线路迭代优化的发展，进一步提高铁路选线的智能化水平。

参考文献

SONG Taoran, PU Hao, SCHONFELD P, et al.

Parallel three-dimensional distance transform for railway alignment optimization using OpenMP

[J]. Journal of Transportation Engineering, Part A: Systems, 2020, 146(5): 04020029.

Transformer驱动的复杂山区铁路多维环境智能选线方法

1 优化模型

1.1 设计变量

1.2 目标函数

1.3 约束条件

2 Transformer-蒙特卡洛树搜索方法

2.1 MCTS线路优化框架

2.2 多维环境表征方法

2.3 多模态特征提取与融合架构

3 案例研究

3.1 案例简介

3.2 优化结果

4 结论

1.1　设计变量

1.2　目标函数

1.3　约束条件

2.1　MCTS线路优化框架

2.2　多维环境表征方法

2.3　多模态特征提取与融合架构

3.1　案例简介

3.2　优化结果