铁路继电器在列车系统中不仅起到保护及控制电路的作用,还能为系统构建稳定的电力使用环境,为铁路列车的自动化运行奠定重要基础[1]。因此,对其进行健康状态的检测与评估对列车正常运行意义重大。在对其进行电寿命实验的过程中,需要对线圈、触头回路的电压、电流波形数据进行采集,由于实验环境的复杂性(如温湿度变化、振动干扰等)、触头材料的磨损和氧化导致的接触不稳定性,以及数据采集系统的噪声、量化误差或采样频率不足等因素会导致在计算退化特征参数时产生不良数据,从而干扰后续进行电寿命预测、退化状态划分等关键步骤的计算,如果仅去除数据集中的异常值会对数据的完整性以及一致性产生影响,因此需要对去除异常值的数据集进行数据填补[2]。综上所述,对退化特征参数的不良数据进行处理是为后续寿命预测等计算进行准备的重要过程。目前,不良数据识别的方法主要集中于统计模型、机器学习和人工智能、信号处理等方法。国内外学者针对缺失数据的填补方法进行了相应研究,主要分为插值填补、回归填补和机器学习填补等方面。孙滢涛等[3]提出了相关向量机回归算法用于特征选取和降维,并使用支撑向量数据描述分类器辨识不良数据,但该方法流程复杂,效率较低,不适用于大规模数据集的处理。GU等[4]采用双馈深度学习法对不良数据进行标记,以提高在不同类型系统拓扑变化下的鲁棒性,但该方法需要预先标记正确的数据样本,处理数十万次开断的继电器数据集时预准备流程较为繁琐。KONG等[5]在数据缺失问题上使用了局部均值替换法,但替换方法较为简单,填补精度难以保证。而HE等[6]提出一种基于数据点标准差和类中心的缺失数据填补方法,但该方法在填补过程中容易受到噪声干扰,导致填补结果的均方根误差(RMSE)较高。LUKUSA等[7]则采用基于参数或非参数方法获取权重的策略,通过反向加权实现数据缺失值的填补,但当数据中存在噪声或异常值时,填补结果可能会失真。针对上述研究的不足,本文提出一种不良数据处理方法。首先,采用孤立森林算法对不良数据进行识别并剔除,形成含有缺失值的数据集。孤立森林算法能够有效处理高维特征空间,且不依赖于特定的数据分布假设,使其在处理数据量较大的继电器退化特征参数时尤为适用。随后,本文结合K近邻(KNN)与极端随机树(ERT)算法进行数据缺失值的填补。该算法充分利用KNN的局部特征捕捉能力和ERT的集成学习优势,能够有效处理大规模数据集,从而提高数据填补的准确性与鲁棒性。最后,通过对比7种插值模型和KNN-ERT插值方法的MSE、RMSE、SNR值及观察量化图来验证本文所提方法的优越性,并通过LightGBM和XGBoost这2种模型进行特征重要度计算,对比插值前后的特征重要度排名来验证本方法的必要性。通过此方法,本文旨在提高不良数据处理的效率与精度,为铁路继电器的健康监测与故障预测提供坚实的理论基础和技术支持。
1 基本理论
1.1 孤立森林
孤立森林(isolation forest)是一种用于异常值检测的无监督学习算法,基于通过“隔离”样本来识别异常点的基本思想[8]。孤立森林算法在处理高维数据集和大规模数据集时具有显著的优势,由于其基于随机分割,不需要对数据进行任何分布假设,适用于复杂特征空间的数据集[9-10]。此外,孤立森林通过多棵孤立树的集成,有效地降低了噪声对模型的影响,提高了异常检测的准确性和鲁棒性。孤立森林的算法过程与随机树的构建类似,通过随机选择特征及随机的分割点来递归分割数据,从而构建出孤立树(isolation trees)。孤立森林算法流程如图1所示。

孤立森林算法可以分为以下步骤。
1) 从原始数据集中采取随机抽样的方式选择一个子样本集,并基于此构建一个孤立树。
2) 在构建孤立树的过程中,每次都随机选择一个特征并确定其分割点来切分数据。
3) 持续分裂节点,直到数据完全被隔离或达到预设的树的最大深度。
4) 重复上述步骤构建多棵孤立树,逐步形成一片孤立森林。
当需要对数据集进行异常值检测时,孤立森林通过将数据集中各数据点输入到多个孤立树中,计算路径长度来评估其是否为异常点。在每棵孤立树中,数据点从根节点出发,直至被孤立。路径长度


式中:


1.2 KNN算法
K近邻算法(K-nearest neighbors, KNN)是一种基础的机器学习方法,广泛应用于分类、回归及数据填补等任务[11]。其基本思想是通过计算待预测数据点与训练集数据点之间的相似性,基于最邻近的
当存在一个待预测数据点xpred时,给定对应数据集X={x1, x2,…, xn},欧氏距离可以通过式(2)进行计算:

式中:m是特征的维度;xpred,j是数据点的第j个特征;xij是训练集中第i个数据点的第j个特征。通过计算距离得出与目标数据点最接近的k个邻居。
在填补缺失值任务中,如果缺失值为类别型变量,使用k个邻居的多数进行填补:

其中,
如果缺失值为数值型变量,使用k个邻居的平均值进行填补:

其中,
1.3 极端随机树算法
极端随机树算法(extremely randomized trees, ERT)的核心思想是在构建决策树时引入极端随机化的策略,相较于传统的随机森林算法在处理大量、多维度的数据时有着更优越的性能,ERT在节点划分时不仅随机选择特征,还随机选择分割阈值[12]。ERT算法结构如图2所示。

极端随机树算法在每个节点随机选择一个特征及其随机分割点,将数据集划分为2个子集:

其中,j是特征索引;θ为随机选定的阈值。
在填补缺失值的过程中,ERT利用所有构建的树进行预测,对于给定的待填补样本


式中:M为构建的树的总数;fm(x)是第m棵树对样本x的预测值。
1.4 投票法
在计算特征重要度的情境中,使用不同模型可能会给出不同的特征重要度排名,为了减少单一模型可能带来的偏差,可以使用投票法进行计算。投票法是一种集成学习策略,旨在通过结合多个独立模型的结果来提高结果的可靠性与稳定性,对于每个特征,投票法通过取多个模型的特征重要度值的加权平均作为结果,权重的选择基于模型的预测性能,决定系数R2衡量了模型对目标变量变异的解释程度,其值越高,表明模型的预测能力越强,从而最终生成更加准确的特征重要度排名。为了消除不同模型间重要性分数量级的差异,可以对每个模型m的特征重要性

其中,N是特征总数,随后使用决定系数R2确定每个模型的权重ωm,决定系数及权重的计算方法为


其中,yi是第i个观测值的实际值;



1.5 算法评价指标
为了评估比较不同算法对数据集的填补效果,采用均方根误差(RMSE)、均方误差(MSE)、信噪比(SNR)、残差量化量化图等评估指标进行分析[13]。各指标计算公式见式(11)~(13):



式中:m是数据点的总数;
2 不良数据处理流程
铁路继电器退化特征参数具有数据量大、非线性等特点[14],一般算法在处理这类数据时可能会出现效率低下、需要预先标记、鲁棒性差、准确度较低等问题。为提高计算效率和填补精度,本文提出一种基于KNN-ERT的算法进行数据填补,基本流程图如图3所示。

KNN-ERT算法的整体计算流程如下。
1) 将经孤立森林去除不良数据后的数据集导入到KNN算法,完成初步插值。
2) 分析初步插值的误差,并将其作为进一步优化的输入数据。
3) 将KNN插值后的数据作为输入特征,构建一个ERT模型,ERT能够捕捉数据中复杂的非线性模式,特别适合处理含误差数据的非线性关系。ERT模型在训练过程中,会根据误差数据进行分裂,其分裂标准基于最小化节点的不纯度。设当前节点含误差数据样本R={r1, r2,…, rn},则在某个特征xi上寻找分裂点t,使得分裂后总方差最小。
分裂点选择的目标是:

式中:Rleft和Rright是分裂后的左右子集;|R|是当前节点中的样本数;Var(·)是数据集的方差。
4) 将ERT修正的误差值加回到初步插值的结果中,得到更精确的插值数据集。
3 算例分析
3.1 实验平台搭建及退化特征参数计算
本文依据GB 14048.4―2016和GB 14048.5―2016规定搭建了铁路继电器电寿命实验平台。以铁路列车常用的西门子3RH2122-2KF40型号直流继电器为试验对象,进行实例分析。试验条件如表1所示。搭建的实验平台如图4所示。
| 试验参数 | 具体数值 | 试验参数 | 具体数值 |
|---|---|---|---|
| 线圈电压/V | DC 110 | 工作制 | DC-12 |
| 负载电压/V | DC 24 | 负载电流/A | 0 |
| 负载类型 | 阻性负载 | 功率因数 | 1 |
| 操作频率/(次∙h-1) | 360 | 采样频率/kHz | 200 |

试验平台包含硬件系统和软件系统2个部分:硬件部分主要包括测量电路及线圈控制电路,软件部分采用Labview作为上位机控制系统,通过控制固态继电器的开断来控制线圈供电电路,以此实现对铁路继电器的自动开断。同时上位机系统通过对NI数据采集卡的采样时间与采样率等参数的设置,完成对铁路继电器开断过程中触头和线圈的电流、电压的电信号采集。
在电寿命实验中常用的退化特征参数有吸合时间、释放时间、接触电阻、弹跳时间、超程时间、燃弧能量等参数[15-16]。其计算表达式如表2所示。表达式中,N是触头稳定闭合时的采集点数;un、in为触点电压、电流;t1为线圈得电时刻;t2为动静触头第1次接触时刻;t3为电压电流波动停止时刻;t4为稳定吸合时刻;t5为线圈失电时刻;t6为起弧时刻;t7为熄弧时刻;∆t为相邻采样点时间间隔;fs为采样率;unx为2个触头断开时不同采集点数线圈电压。
| 特征名称 | 计算表达式 |
|---|---|
| 弹跳时间 | ![]() |
| 超程时间 | ![]() |
| 燃弧时间 | ![]() |
| 接触电阻 | ![]() |
| 吸合时间 | ![]() |
| 释放时间 | ![]() |
| 释放电压 | ![]() |
| 燃弧能量 | ![]() |
3.2 不良数据去除有效性验证
铁路继电器退化特征参数中的不良数据一般具有明显偏离正常值范围、原始信号波动剧烈等特点[17]。为验证去除不良数据方法的有效性,以吸合过程为例,对比了吸合时间与接触电阻均被识别为异常值或正常值的原始信号波形图,分别为均被识别为正常值的第82 008次开断和均被识别为异常的82 006次开断及85 560次开断。为方便观察将线圈电压缩小为原始值的1/3。其原始信号波形图分别如图5所示。

通过观察图5可以看出:在正常开断的情况下触头电压波动幅度较小,触头电流电压均较为平稳,而在异常开断的情况下触头电压波动幅度较大且波动剧烈不规则,触头电流也出现一定幅度的波动。图5(c)中的异常情况虽然也表现为触头电压波动剧烈,但与图5(a)相比波动的频率明显较快,类似于图5(a)的较大瞬时跳变现象通常与电弧现象有关,而类似于图5(c)中频繁的、无规律的波动现象通常与电气干扰、机械震动有关[18-19],这表明本方法能够有效识别由不同因素引起的不良数据。表3为3种重要参数在经本方法的每一阶段处理后的方差,可以看出本方法逐步降低了数据的波动与误差,提升了数据的稳定性。
| 参数名称 | 原始数据 | 去除异常值 | KNN填补 | ERT优化 |
|---|---|---|---|---|
| 吸合时间 | 0.833 | 0.817 | 0.784 | 0.714 |
| 接触电阻 | 66.314 | 65.019 | 63.766 | 60.895 |
| 释放时间 | 0.431 | 0.411 | 0.364 | 0.324 |
3.3 模型对比试验及结果分析
在所有前置条件完全一致的情况下,本文分别采用线性插值、LOESS插值、卡尔曼滤波、随机森林(RF)、KNN、ERT和KNN-ERT共7种插值方式进行了数据填补,并分别计算了7种算法的RMSE指标、MSE指标、SNR指标数值,3种指标的计算结果如表4、表5和表6所示。
| 参数名称 | 异常值占比/% | 线性插值 | LOESS插值 | 卡尔曼滤波 | KNN | 随机森林 | ERT | KNN-ERT |
|---|---|---|---|---|---|---|---|---|
| 吸合时间 | 1.10 | 0.005 | 0.057 | 0.048 | 0.005 | 0.006 | 0.005 | 0.004 |
| 接触电阻 | 7.81 | 6.634 | 15.406 | 13.929 | 6.581 | 6.769 | 6.681 | 6.439 |
| 释放时间 | 2.62 | 0.003 | 0.042 | 0.023 | 0.004 | 0.006 | 0.004 | 0.002 |
| 参数名称 | 异常值占比/% | 线性插值 | LOESS插值 | 卡尔曼滤波 | KNN | 随机森林 | ERT | KNN-ERT |
|---|---|---|---|---|---|---|---|---|
| 吸合时间 | 1.10 | 0.068 | 0.240 | 0.219 | 0.070 | 0.074 | 0.073 | 0.064 |
| 接触电阻 | 7.81 | 2.575 | 3.925 | 3.732 | 2.565 | 2.602 | 2.585 | 2.527 |
| 释放时间 | 2.62 | 0.058 | 0.204 | 0.153 | 0.068 | 0.077 | 0.061 | 0.051 |
| 参数名称 | 异常值占比/% | 线性插值 | LOESS插值 | 卡尔曼滤波 | KNN | 随机森林 | ERT | KNN-ERT |
|---|---|---|---|---|---|---|---|---|
| 吸合时间 | 1.10 | 55.106 | 44.153 | 44.929 | 54.734 | 54.280 | 54.452 | 56.961 |
| 接触电阻 | 7.81 | 17.814 | 14.040 | 14.511 | 17.848 | 17.719 | 17.782 | 18.007 |
| 释放时间 | 2.62 | 52.817 | 41.917 | 44.439 | 51.545 | 50.362 | 52.444 | 55.368 |
通过观察表4~6可以发现,KNN-ERT在不同评价指标下均有着比单独使用KNN或ERT插值更好的表现,因此可以做出如下分析:以接触电阻为例,KNN-ERT算法的RMSE值为2.527,低于单独使用KNN的2.565,与单独使用ERT的2.585。MSE值为6.386,低于单独使用KNN的6.581与单独使用ERT的6.681。SNR值为18.217高于单独使用KNN的17.848与单独使用ERT的17.782。虽然使用KNN填补缺失值在处理局部相似性高的数据时表现良好,但在处理具有非线性、全局复杂度高的铁路继电器数据集时表现欠佳。ERT通过随机化决策树构建全局复杂关系,能够充分捕捉到数据中的非线性特征,但在处理局部数据相似性时,ERT的表现欠佳。KNN-ERT的组合方法通过结合KNN的局部相似性建模能力和ERT的全局复杂性建模能力,在构建树的过程中引入了更多的随机性从而能有效减少过拟合的风险,同时在初步插值时提供了稳定的局部估计进而避免了该算法在全局拟合时的过度复杂化。
为了进一步验证提出的算法是否拥有更好的拟合效果,绘制了KNN、ERT和KNN-ERT算法的QQ图,QQ图(Quantile-Quantile Plot)也叫量化量化图用于比较数据的分布与理论正态分布之间的差异[20],得到的结果如图6~8所示。



在QQ图中理论分位数代表着在假设的正态分布下不同分位数的值,排序值是对实际的残差数据进行从小到大排序后的值,表示实际数据的位置,如果残差符合正态分布,所有的点都应该更贴近较细的参考线,这表示残差是随机的且模型没有遗漏某些重要特征,且不存在较大的系统性偏差,插值效果较好。
从图6~8可以看出KNN-ERT算法相较于分别单独使用KNN与ERT算法得出的QQ图更贴近参考线,说明该算法拥有更好的插值效果,验证了该算法拥有更强的准确性与鲁棒性。
基于KNN-ERT算法实现的3种特征参数数据的插值结果如图9所示。分析图9可知,KNN-ERT算法滤除了受多种因素影响产生的不良数据,最大限度地还原了数据在不受干扰情况下的真实值。

将原始数据与所有经过孤立森林去除不良数据的原始数据通过KNN-ERT算法进行插值处理后,输入到LightGBM和XGBoost模型进行增益计算,并使用投票法得到最终特征重要度排名对比如图10所示。

图10中展示的2个模型的重要性已经与各自的权重进行了加权处理,同时,投票法避免了单一模型可能导致的排名不准确问题。通过对比原始数据的特征重要度排名发现,处理后的数据中接触电阻、燃弧能量的重要度大幅上升,释放时间的重要度大幅下降,这说明原始数据中的不良数据对特征重要度的计算存在干扰,如不进行不良数据处理会对后续的特征参量筛选、继电器健康检测和故障预测等步骤产生干扰,本文的研究为后续对继电器的健康状态分析打下了更为坚实的基础。
4 结论
1) 采用孤立森林算法对不良数据进行剔除,并使用KNN-ERT算法进行数据填补,得到一个拥有较高准确度且较强鲁棒性的填补结果。
2) 将KNN-ERT算法与传统的线性插值、随机森林、LOESS插值、卡尔曼滤波以及单独使用KNN或ERT算法进行了插值效果对比分析,结果表明KNN-ERT算法在RMSE、MSE、SNR以及量化量化图中均表现为最优算法,在量化量化图中更接近稳态分布,将最极端的偏差值从约80降低至约30,说明该算法在处理极端值时表现得更加稳健。
3) 通过对比处理前后数据的特征重要度,发现8种退化特征参数的特征重要度排名发生显著变化,这一结果说明采用本方法能够更精确地捕捉到铁路直流继电器的退化规律,并为后续的故障预测和设备维护策略提供更可靠的依据。
刘树鑫,柴宇凡,李哲等.基于KNN-ERT算法的铁路继电器不良数据处理方法[J].铁道科学与工程学报,2025,22(10):4737-4748.
LIU Shuxin,CHAI Yufan,LI Zhe,et al.Faulty data processing method for railway relays based on the KNN-ERT algorithm[J].Journal of Railway Science and Engineering,2025,22(10):4737-4748.









