截至2024年,全国铁路网规模已突破16万km,随着铁路运输网络的发展,信号设备的数量和运行频率不断增加,其维护和管理的复杂性随之上升。转辙机作为铁路信号系统中的关键设备,其稳定性与可靠性对列车的高效运行至关重要[1]。然而,当前转辙机的健康状态监测和评估仍停留在“故障修”和“计划修”阶段,传统的方法缺乏实时性,难以满足现代铁路系统对高效率和高可靠性的需求。数字孪生技术利用人工智能、大数据分析等信息技术,可以实现设备的数字化表达,通过构建物理实体的孪生模型,完成对设备的实时映射与仿真。TUEGEL等[2]基于超高保真的飞机数字孪生模型,结合飞行条件对飞机结构的变形和温度变化进行仿真,模拟飞机结构损伤,进而进行寿命预测。谢先启等[3]提出了基于数字孪生技术的工程智能质量安全管理与控制体系,为数字孪生技术在工程项目中的应用提供了积极探索。LI等[4]开发了基于动态贝叶斯网络的飞机数字孪生模型,提出一种通用的诊断与预测方法,通过收集飞机的制造、材料特性及任务历史来评估飞机的健康状况,并以机翼疲劳裂纹扩展为案例进行了分析。在转辙机健康状态评估方面,随着技术的进步,学者们通过优化模型结构来提升分析评估的准确性。张轩赫等[5]利用深度置信网络提取特征,结合联锁状态数据训练预测模型;武晓春等[6]提出一种结合SOM-LSTM混合神经网络的转辙设备健康状态评估与预测方法;尹航等[7]通过深度学习模型,利用GRU网络处理转辙机时序数据,实现健康状态的智能分析与评估。然而,现有的深度学习方法存在一定的“黑箱”特性,缺乏足够的可解释性和稳定性。本文提出一种基于数字孪生的转辙机健康状态智能分析方法,利用集成多种传统机器学习模型,并结合SMOTE和RFECV-RF特征选择策略优化模型,提升了分析模型的可解释性与稳定性。通过建立转辙机的数字孪生模型,实现设备实际运行状态的高保真虚实映射,并在数字孪生平台上导入基于特征增强的元学习网络(feature enhanced meta-learning, FEML)模型,完成对转辙机健康状态的实时分析。通过多尺度、高精度的孪生模型平台,可以更精准地监测与分析转辙机的运行状态及数据信息,从而实现设备状态诊断、故障预警与运行优化。
1 转辙机健康状态分析评估的数字孪生框架
在铁路系统中,转辙机作为关键的信号设备,其健康状态的持续监测与评估对保障铁路运行安全至关重要。数字孪生技术,作为一种新兴的智能化工具,能够在数字空间中建立设备的虚拟模型,通过多尺度、多维度的仿真与分析,提供对转辙机运行状态的实时监控与预测。
数字孪生的核心理念是通过虚拟模型映射物理实体的各类属性、行为和规则。基于陶飞等[8]提出的数字孪生五维模型应用理论,可以为转辙机健康状态分析与评估构建一个多维度的虚拟模型。该模型如图1所示,包括5个关键部分:物理实体、孪生模型、孪生数据、服务和交互连接。

物理实体作为数字孪生体的核心,包括转辙机、微机监测和传感器等物理设备。在转辙机执行道岔转换作业的过程中,传感器能够实时监测其功率波动、缺口位移等关键特性的变化情况,并经由无线传输模块与服务层的孪生平台实现高效通信。
孪生模型能够准确体现转辙机实体的尺寸、外观和行为规则等特征,与物理实体之间保持几何和行为层面的一致性,孪生模型可以根据物理实体特征的变化进行实时更新,更新后的结果也会实时地反馈给物理实体。在孪生模型构建层面,突破了传统三维几何模型的局限,采用参数化建模与本体论相结合,几何层面通过SolidWorks和3ds MAX构建参数化三维实体,行为规则层面依据多体动力学理论实现机械传动。
孪生数据作为数字孪生体的驱动中心,其包含了转辙机的实时数据、健康状态分析模型参数、可视化对象数据,并将数据及时保存到MySQL数据库中,是实现转辙机健康状态智能分析服务的关键。
服务作为数字孪生体面向用户的窗口,包含设备三维可视化监测、健康状态分析评估、历史故障记录、线路设备健康率实时反馈等功能,为用户从设备实时监测、健康状态分析评估到决策支持提供了全面帮助。
连接作为数字孪生体各部分的关键桥梁,肩负着孪生数据精准传输至各个部分的重要使命,从而有效保障了数字孪生系统稳定运行与高效协作。
驱动作为服务中用户操作数字孪生平台,以实现对物理实体和孪生模型的控制;通信通过以太网等媒介确保数据的高效、准确传输。
转辙机数字孪生体系统框架主要由4个关键部分组成:第1部分是提供模型数据的物理层,负责实时获取转辙机的状态数据;第2部分是实现信息交互的数据层,主要用于不同层级和模块间的数据传递与处理;第3部分是包含几何模型、行为模型和规则模型的模型层,这一层为转辙机的仿真与分析提供基础模型;第4部分是实现人机交互的应用层,为系统的用户提供友好的操作界面和决策支持,如图2所示。

2 转辙机运行健康状态分析评估方案
根据S700K转辙机运行的功率数据将健康状态划分为健康、亚健康、故障3个评级[9],如表1所示。图3列举了5种不同健康状态下的转辙机功率曲线,下文将健康状态记为标签1,3种故障状态记为2~4,亚健康记为5~6。
| 健康状态 | 状态等级 | 标签 | 状态类型 | 原因 |
|---|---|---|---|---|
| 健康 | 健康 | A | 状态良好 | 无 |
| 故障 | 严重故障1 | B | 道岔无法正常解锁 | 下拉装置故障 |
| 轻度故障 | C | 锁闭杆异常滑动 | 杆件连接部分故障 | |
| 严重故障2 | D | 动作杆卡死 | 杆件间零部件脱落 | |
| 亚健康 | 重度亚健康 | E | 道岔机械装置松动 | 维修安装操作不当 |
| 轻度亚健康 | F | 三相端子接触不良 | 端子口处松动 |

2.1 数据预处理与模型优化设计
2.1.1 基于SMOTE的数据类别不平衡处理方法
在采集转辙机功率数据时,常出现采样数据不平衡的问题,因部分类别数据样本有限,导致训练后的模型在可靠性和泛化能力方面无法满足实际的需要。为解决此类问题,本文采用SMOTE算法扩充少数类别样本,以均衡训练数据集,从而有效提升模型整体的鲁棒性和泛化能力。SMOTE算法首先从原始功率数据中提取能够代表样本特征的特征向量。鉴于数据的时序特性,采用时间窗口滑动法提取特征向量,每个窗口内的功率值作为一个特征向量。具体而言,多维特征由不同时间点的功率值构成,每个时间窗口内的功率值作为特征向量的一个维度。
接下来,对于每个少数类样本xi,计算其与所有其他少数类样本之间的距离,并找到最近邻样本xnn,再从xi和xnn之间进行线性插值,生成新的合成样本xnew,进而实现整体训练样本数据集的平衡。SMOTE算法合成新样本的公式如下:

式中:λ是一个随机数,取值范围为[0,1],用于控制插值的程度,即距离偏移量的大小。
SMOTE算法的优势是在不增加噪声数据的前提下,通过在少数类样本之间进行插值来合成新的样本,从而增加少数类样本的数量,使得数据集更加平衡,进而提高模型对少数类的识别能力。这种方法避免了简单复制少数类样本可能导致的过拟合问题,并且比传统的随机过采样方法更有效地提高了模型性能,间接增强模型对特征的学习能力。
2.1.2 基于RFECV-RF的特征选择策略优化
RFECV-RF(recursive feature elimination with cross-validation using random forest)是一种基于递归特征消除(RFE)方法的特征选择技术,与传统的RFE方法相比,RFECV-RF结合了交叉验证和随机森林分类器,进一步提升了特征选择的准确性和稳定性。与REF不同,RFECV-RF通过在每个递归步骤中使用交叉验证来评估特征子集的性能,从而避免了模型过拟合,并能自动选择最优的特征集合。具体来说,RFECV-RF通过多次训练模型,对每个特征进行评分排序,逐步剔除对模型预测能力影响较小的特征,最终筛选出对模型性能贡献最大的特征。RFECV-RF的流程如图4所示。

为了解决转辙机功率数据集中存在数据高维化、特征冗余性和计算资源消耗大的问题,本文采用了RFECV-RF方法。该算法通过封装式策略,将随机森林作为基础分类器,在每次迭代过程中计算特征的重要性并剔除不重要的特征来优化模型。通过交叉验证,RFECV-RF能够在不同的特征组合下评估模型的性能,从而自动识别出最有效的特征集合,减少了过拟合的风险,加快了训练和预测的速度,并增强了模型的鲁棒性和泛化能力。与传统的RFE方法相比,RFECV-RF能够更有效地应对高维数据集,减少计算开销,提升模型的预测性能,并且在处理大规模数据时,具有更好的稳定性和准确性。
在RFECV-RF的特征选择策略优化中,首先对特征变量进行独特编码,再利用RFECV内置的交叉验证评估各特征子集性能,以确定最佳特征数量,并递归消除低重要性特征。FEML模型中3个基学器HistGBM、LinearSVC和Ridge的特征权重或特征重要性计算如式(2)所示:

式中:每条数据特征fk的重要性通常用信息增益Impi来衡量,其中Tk表示特征fk在所有树中的所有分裂节点;Impi为特征fk第i节点分裂时所带来的信息增益。

式中:Z1和Z2分别为LinearSVC和Ridge的目标函数,通过优化目标函数来求解权重。其中,w为权重向量;b为偏置项;fk(xi)为每个类别k对样本i的预测;yi为样本i的真实标签,取值范围为0~4的整数;C为正则化参数,取值范围C>0;1(yi=k)为指示函数,当样本i属于类别k时为1,否则为0。

式中:m是样本数;hθ(x(i))是预测值,即模型输出;y(i)是真实的标签值;θj是模型的参数j=1,2,…,n,θ0可以不参与正则化,λ是正则化参数,控制正则化的强度。

式中:X是特征集;y是目标变量;M是训练得到的模型;在进行特征重要性评估中,I是特征重要性得分;X'是剔除不重要特征后的新特征集。
2.2 FEML模型的构建与分析
FEML(feature enhanced meta-learning)模型是一种集成了特征增强和元学习的机器学习方法,旨在通过有效利用特征选择和模型集成技术,提高对转辙机健康状态的分析和评估能力。针对单一的机器学习的方法存在泛化能力不足、稳定性低、鲁棒性差等问题,本模型通过改进Stacking算法[10],将输入数据特征进行k-折交叉验证和GridSearchCV技术对基学习器的参数进行优化配置,寻找到最佳模型配置,以提高模型对转辙机健康状态分析评估的准确度。SMOTE通过生成合成样本增加少数类数据,提升数据多样性;REFCV-RF递归地移除不重要特征,精准筛选出关键特征,二者协同实现数据特征增强,为模型训练提供高质量数据支持。
将转辙机的功率数据集划分为训练集Dtrain和测试集Dtest,为降低模型过拟合的风险,通过k-折交叉验证的方式,设置参数k=5,进行5次交叉验证,生成次级训练集
改进后的Stacking算法通过并行训练多个基学习器,将训练特征数据划分为若干组用于交叉验证。基学习器训练后对测试数据进行预测,其预测结果作为新的特征数据。基学习器构成FEML模型的一层,预测特征数据被输入到模型第2层的元学习器中进行进一步训练。元学习器结合这些新的数据特征,输出最终的评估分析结果。此外,元学习器可以根据第1层不同的基学习器和问题类型进行调整,提高了模型融合的灵活性和适应性。FEML模型评估分析流程如图5所示。

元学习的核心在于基学习器与元学习器的协同运作,本文在模型第1层选用3种不同工作原理的机器学习算法组成基学习器,实现了1+1+1>3的效果。在处理健康状态多分类问题中,基于梯度提升决策树(HistGBM)、线性支持向量机(linearSVC)、岭回归分类器(Ridge)具有出色的分析评估能力,可适用于特征多样的复杂数据集的分类问题。
基于梯度提升决策树(HistGBM)作为基学习器的一部分,采用基于直方图的离散化技术以提高计算效率,同时保持强大的非线性建模能力。通过梯度优化的分阶段加法扩展,可有效学习复杂决策边界,最小化可微损失函数。在处理大规模数据集时,将特征值划分为多个区间来加速训练过程,从而在处理大数据集时表现出色。
线性支持向量机(LinearSVC)作为基学习器的一部分,通过最大间隔分类器来寻找最优的分类超平面,依据间隔最大化原则实现内在正则化,在保证大规模线性分类计算可行性的同时防止过拟合。在选择惩罚和损失函数方面有更高的灵活性,并且在处理大量样本时表现更好。与SVC相比能够更好地扩展到大量样本,适用于大规模数据集的分类任务。
岭回归分类器(Ridge)作为基学习器的一部分,通过在损失函数中加入L2正则化项来控制模型的复杂度,从而提高模型的泛化能力和数值稳定性。Ridge回归特别适用于处理存在多重共线性或特征数量较多的数据集。
随机森林(Random Forest)作为FEML模型的元学习器,通过构建多个决策树并通过众数或平均值汇总树的预测结果来提高模型的准确性和泛化能力。随机森林可以用于分类和回归问题,并且在处理大规模数据和防止过拟合方面表现出色。随机森林作为元学习器与上述基学习器结合使用,对基学习器的预测结果进行进一步的训练和预测,采用集成学习的方法提高模型的评估分析性能。
2.3 基于FEML的转辙机健康状态分析评估流程
本文构建的基于FEML的转辙机健康状态分析评估方法如图6所示,具体步骤如下。

1) 首先对转辙机功率曲线进行处理,S700K型转辙机的动作功率曲线表现为一维时间序列数据[11]。在正常条件下,道岔的动作时间为0~7 s,而铁路信号微机监测系统采集数据的时间间隔设定为0.05 s,因此,通常收集141个数据点。然而,某些故障情况下的动作时间可能超出7 s。为确保模型输入量的一致性,将动作功率曲线的时间序列长度统一设定为7 s,共计141个数据点。对于那些动作功率曲线时间不足7 s的情况,通过在序列末尾补0~7 s,以确保数据长度的一致性。在将数据输入模型进行训练之前,需对数据执行归一化处理,其具体公式如下:

式中:x是原始数据值;μ是数据的均值;σ是数据的标准差;
2) 采用数据增强(SMOTE)和特征选择(RFECV-RF)等技术,对每一类健康状态141个数据进行特征优化,使FEML模型在特征表达和获取等方面得到增强。
3) 针对转辙机不同的健康状态制定相应的数据标签,做数据结果的映射值,如表1所示。共有600条数据,按照7∶3的比例划分数据的训练集与测试集。
4) 通过k-折交叉验证的方式,对增强特征后的数据进行验证,避免重复学习出现过拟合现象。
5) 对模型的基学习器和元学习器设定合理的参数范围,利用GridSearchCV来优化相关参数,通过对比模型预训练时的精准度和召回率等指标,确定模型最优的参数设定。
6) 将基学习器的分类结果合并成一个新的矩阵,将其作为模型第2层元学习器的训练集和测试集,随机森林元学习器处理新的训练集和测试集,给出转辙机健康状态最终的评估分析结果。
3 实例分析
为验证本文模型在转辙机健康状态评估方面的有效性,采用某铁路局实际的S700K转辙机功率曲线数据进行实例分析。各类健康状态的数据样本共600组,共分为6类,如表1所示,标签A为健康样本,标签B、C、D为故障样本,标签E、F为亚健康样本。FEML模型对以上数据样本进行健康状态的评估分析时,需要确定第1层基学习器的参数,如表2所示。通过GridSearchCV遍历给定的参数网格,对每一组参数组合进行交叉验证,并根据指定的评分标准选择出最佳的参数组合。
3.1 对比试验
为了验证FEML模型在S700K转辙机健康状态评估的有效性,使用相同的数据集进行实验比较,如图7所示。将FEML模型分别与k近邻算法(KNN)[12]、PCA-HMM模型[13]、CDET/MPSO-SVM模型[14]、LSTM-CNN模型[15]、卷积神经网络(CNN)[16]、长短时记忆(LSTM)[17]、对称决策树(CatBoost)[18]进行对比,通过准确率、召回率、精确率和F1-score全面客观地评估模型性能:F1-score通过调和平均数的方式综合了精确率(Precision)和召回率(Recall)2个指标,进一步评估模型的整体性能,准确率适用于类别均衡场景,体现模型综合评估能力;召回率衡量正例识别力,高值可减少漏报;精确率反映预测正确度,避免过度维修,如式(7)~(10)所示。




其中,TP为实际正类预测为正类的样本数目;FN为正类预测为负类的样本数目;FP为实际负类预测为正类的样本数目;TN为实际负类预测为负类的样本数目[19]。不同模型的评估性能对比如表3所示。

| 模型 | 准确度 | 召回率 | F1-score | 精确率 |
|---|---|---|---|---|
| FEML | 99.07 | 99.07 | 99.08 | 99.12 |
| CatBoost | 97.22 | 97.21 | 97.35 | 97.20 |
| KNN | 96.30 | 95.00 | 96.29 | 96.43 |
| CNN | 96.76 | 96.76 | 96.73 | 96.81 |
| LSTM | 96.30 | 96.29 | 96.30 | 96.27 |
| PCA-HMM | 91.67 | 91.66 | 91.83 | 92.61 |
| LSTM-CNN | 96.76 | 96.77 | 96.77 | 96.89 |
| CDET/MPSO-SVM | 97.69 | 97.69 | 97.68 | 97.78 |
实验结果表明,FEML模型在设备健康状态评估中的准确度、召回率、F1-score和精确率分别为99.07%、99.07%、99.08%和99.12%。根据表3,PCA-HMM模型由于数据特征提取的局限性,准确度仅为91.67%。如图7所示,KNN和CNN模型的准确度为96.30%,能够较好地识别亚健康状态,但未能准确分类严重故障1(B),显示出对部分特征的敏感性不足。LSTM和LSTM-CNN模型的准确度为96.76%,能够识别亚健康,但容易误判其他健康状态。相较于单一决策树模型CatBoost,FEML模型通过融合多种决策方法提高了1.85个百分点的准确度,并在召回率和F1-score上优于其他模型,准确度相比CDET/MPSO-SVM融合模型提高了1.38个百分点。
3.2 消融实验
为验证FEML模型中各个基学习器对转辙机健康状态评估的有效性,使用上述对比实验的数据集,以FEML模型为基准模型,通过在基学习器中依次减少各个模块进行消融实验。在基学习器支持向量机模块中,对本模块进行改进,训练时使用CalibratedClassifierCV包装LinearSVC比直接使用SVC[20]速度更快,消融实验结果如表4所示。FEML模型通过使用Histgbm、LinearSVC和Ridge作为基学习器,在进行健康状态评估的过程中,模型的性能指标均优于其他方法。尽管在训练时长方面逊色于单一方法,但是在准确率和召回率等方面提高了1.03~2.76个百分点。此外,使用LinearSVC进一步加快了FEML模型的训练速度。相比传统的SVC算法,LinearSVC使用了更高效的坐标下降法(Coordinate descent),通过对求解算法的优化、内存效率的提高,以及校准过程的简化,加快了数据训练的速度,将训练时长缩短了近50%。
| 方法 | 准确度/% | 召回率/% | F1- score/% | 精确率/% | 训练用时/s |
|---|---|---|---|---|---|
| Histgbm | 97.78 | 97.77 | 97.94 | 98.09 | 2.58 |
| Ridge | 97.21 | 97.03 | 97.25 | 97.47 | 1.91 |
| SVC | 97.22 | 96.91 | 96.89 | 96.85 | 2.14 |
| Histgbm+SVC | 97.78 | 97.71 | 97.80 | 97.91 | 10.43 |
| Histgbm+Ridge | 98.89 | 98.80 | 97.60 | 96.43 | 18.89 |
| SVC+Ridge | 98.33 | 98.35 | 98.33 | 98.31 | 5.48 |
| Histgbm+SVC+Ridge | 98.33 | 98.29 | 98.56 | 98.83 | 20.83 |
| Histgbm+LinearSVC+Ridge | 99.07 | 99.07 | 99.08 | 99.12 | 9.7 |
3.3 抗噪性分析
在S700K转辙机功率数据采集的过程中,通常会存在噪声信号的干扰。因此,为了模拟铁路现场真实情况并验证FEML模型的抗噪能力,在数据集中添加泊松噪声信号,构造方法如式(11)~(12)。


其中,λ为泊松分布的参数,决定了噪声的强度;Xij为原始数据矩阵中X中第i个样本的j个特征;Poisson(λij)为从泊松分布中抽取的噪声值;λi为第i个样本的第j个特征的噪声强度;
将FEML模型与KNN模型、SVC模型、Ridge模型进行对比测试,实验结果如图8所示。在综合多个噪声幅值(0.5、1.0、1.5)实验条件下,FEML模型的各项指标均在97%以上,综合性能较SVC提升超过10%,展现出FEML多模融合模型良好的抗噪性能,能够更好地处理复杂现场环境下的S700K转辙机功率数据。

3.4 基于数字孪生平台的转辙机健康状态评估与分析
在转辙机健康状态评估中,数字孪生平台借助虚拟模型与物理实体的交互,实时监测设备状态并进行数据融合分析,以实现全生命周期管理。以转辙机不同健康状态下的功率数据为依据,FEML模型评估设备健康状态,综合数据变化趋势动态预测。模型诊断出异常,平台自动报警并给出维护建议,如图9所示。

数字孪生平台采用前后端分离架构进行开发设计,前端基于Vue.js框架实现可视化交互,后端采用Spring Boot构建模型服务系统。数字孪生平台前端Vue通过WebSocket实时接收电气传感器的数据,将采集到的功率信号数据通过python节点导入FEML模型。训练完成后,模型与孪生体版本绑定保存。FEML模型作为转辙机健康状态分析评估模型,在平台后端Spring Boot应用FEML模型服务,将归一化后的数据输入训练好的模型进行健康状态评估分析,最终模型输出通过ECharts在Vue端完成转辙机的健康状态评估,平台会及时显示设备状态及故障点个数,并在Spring Boot中记录模型参数与设备状态的关联日志,如图10(b)所示。平台提供了可视化的FEML模型管理模块,允许用户查看和调整模型参数配置。转辙机数字孪生平台的FEML模型管理如图10(a)所示。

4 结论
1) 传统的健康管理方法已难以满足现代智慧铁路对设备实时监测与预警的需求,提出通过数字孪生技术实现转辙机健康状态的可视化分析与评估,以便更直观地掌握设备实时健康状态。
2) 在健康状态评估模型方面,提出基于FEML模型的S700K转辙机健康状态分析方法,结合RFECV-RF与SMOTE技术有效降低过拟合风险,并提高处理多特征数据集时的鲁棒性。
3) 利用元学习方法融合HistGBM、LinearSVC和Ridge模型,通过机器学习优势进行优化特征提取与健康状态分析评估,FEML模型在保证高效性的同时,实现了99.07%的健康状态评估准确率,且在泊松噪声幅值(0.5、1.0、1.5)的条件下,各项指标均保持97%以上,具备了稳健的健康状态评估能力。
4) 现有研究主要集中于通过改进算法提升设备健康状态评估性能,鲜有将改进后的模型应用于实际监测平台。本文创新性地将多种机器学习算法融合,并结合数字孪生平台实现转辙机健康状态智能分析,为铁路设备监测与异常预警提供支持,但在多设备适应性、实时性及大数据处理中的预测精度仍需优化,未来研究应聚焦算法优化与平台扩展性提升。
5) 未来将联合铁路部门,在转辙机上加装多模态传感器,融合振动频谱、红外温度监测等数据,构建多维度数据融合的健康评估模型。
张振海,李哲远,鲍盛成等.基于数字孪生的转辙机健康状态智能分析方法[J].铁道科学与工程学报,2025,22(10):4697-4711.
ZHANG Zhenhai,LI Zheyuan,BAO Shengcheng,et al.Intelligent analysis method for the health status of switch machines based on digital twin technology[J].Journal of Railway Science and Engineering,2025,22(10):4697-4711.

