logo

基于KNN-ERT算法的铁路继电器不良数据处理方法

工程诊所•工匠之家

基于KNN-ERT算法的铁路继电器不良数据处理方法

树鑫
宇凡
恩平
铁道科学与工程学报第22卷, 第10期pp.4737-4748纸质出版 2025-10-28
9200

针对在处理铁路继电器退化特征参数中的不良数据时传统方法存在效率低下、需要预先标记异常值、鲁棒性差、准确度较低等问题,提出一种基于KNN-ERT算法的不良数据处理方法。以铁路列车常用的西门子3RH2122-2KF40型号直流继电器为实验对象,首先,利用铁路直流继电器寿命实验平台采集线圈与触头的电信号,并以计算得到的8种退化特征参数作为原始数据;然后,利用孤立森林算法去除所得退化特征参数中的不良数据,该算法可以有效地处理高维特征空间;最后,使用KNN-ERT算法进行数据插值,该方法充分利用KNN的局部特征捕捉能力和ERT的集成学习优势,从而提高数据填补的准确性与鲁棒性。将含有缺失值的数据集分别输入7种不同的插值模型进行插值对比,使用RMSE、MSE、SNR和量化图评价指标进行插值结果评估。实验结果表明:本文提出的算法插值结果在多个不同的评价指标下均优于传统的线性插值、随机森林、KNN和ERT等算法,鲁棒性强,准确度高,在有效处理数据集的局部相似性的同时避免了数据过拟合的风险,实验结果证明了该算法的优越性。研究结果为后续实验中对继电器的健康状态分析打下了更为坚实的基础。

铁路继电器不良数据极端随机树特征重要度数据填补

铁路继电器在列车系统中不仅起到保护及控制电路的作用,还能为系统构建稳定的电力使用环境,为铁路列车的自动化运行奠定重要基础[1]。因此,对其进行健康状态的检测与评估对列车正常运行意义重大。在对其进行电寿命实验的过程中,需要对线圈、触头回路的电压、电流波形数据进行采集,由于实验环境的复杂性(如温湿度变化、振动干扰等)、触头材料的磨损和氧化导致的接触不稳定性,以及数据采集系统的噪声、量化误差或采样频率不足等因素会导致在计算退化特征参数时产生不良数据,从而干扰后续进行电寿命预测、退化状态划分等关键步骤的计算,如果仅去除数据集中的异常值会对数据的完整性以及一致性产生影响,因此需要对去除异常值的数据集进行数据填补[2]。综上所述,对退化特征参数的不良数据进行处理是为后续寿命预测等计算进行准备的重要过程。目前,不良数据识别的方法主要集中于统计模型、机器学习和人工智能、信号处理等方法。国内外学者针对缺失数据的填补方法进行了相应研究,主要分为插值填补、回归填补和机器学习填补等方面。孙滢涛等[3]提出了相关向量机回归算法用于特征选取和降维,并使用支撑向量数据描述分类器辨识不良数据,但该方法流程复杂,效率较低,不适用于大规模数据集的处理。GU等[4]采用双馈深度学习法对不良数据进行标记,以提高在不同类型系统拓扑变化下的鲁棒性,但该方法需要预先标记正确的数据样本,处理数十万次开断的继电器数据集时预准备流程较为繁琐。KONG等[5]在数据缺失问题上使用了局部均值替换法,但替换方法较为简单,填补精度难以保证。而HE等[6]提出一种基于数据点标准差和类中心的缺失数据填补方法,但该方法在填补过程中容易受到噪声干扰,导致填补结果的均方根误差(RMSE)较高。LUKUSA等[7]则采用基于参数或非参数方法获取权重的策略,通过反向加权实现数据缺失值的填补,但当数据中存在噪声或异常值时,填补结果可能会失真。针对上述研究的不足,本文提出一种不良数据处理方法。首先,采用孤立森林算法对不良数据进行识别并剔除,形成含有缺失值的数据集。孤立森林算法能够有效处理高维特征空间,且不依赖于特定的数据分布假设,使其在处理数据量较大的继电器退化特征参数时尤为适用。随后,本文结合K近邻(KNN)与极端随机树(ERT)算法进行数据缺失值的填补。该算法充分利用KNN的局部特征捕捉能力和ERT的集成学习优势,能够有效处理大规模数据集,从而提高数据填补的准确性与鲁棒性。最后,通过对比7种插值模型和KNN-ERT插值方法的MSE、RMSE、SNR值及观察量化图来验证本文所提方法的优越性,并通过LightGBM和XGBoost这2种模型进行特征重要度计算,对比插值前后的特征重要度排名来验证本方法的必要性。通过此方法,本文旨在提高不良数据处理的效率与精度,为铁路继电器的健康监测与故障预测提供坚实的理论基础和技术支持。

1 基本理论

1.1 孤立森林

孤立森林(isolation forest)是一种用于异常值检测的无监督学习算法,基于通过“隔离”样本来识别异常点的基本思想[8]。孤立森林算法在处理高维数据集和大规模数据集时具有显著的优势,由于其基于随机分割,不需要对数据进行任何分布假设,适用于复杂特征空间的数据集[9-10]。此外,孤立森林通过多棵孤立树的集成,有效地降低了噪声对模型的影响,提高了异常检测的准确性和鲁棒性。孤立森林的算法过程与随机树的构建类似,通过随机选择特征及随机的分割点来递归分割数据,从而构建出孤立树(isolation trees)。孤立森林算法流程如图1所示。

图1
孤立森林算法流程图
pic

孤立森林算法可以分为以下步骤。

1) 从原始数据集中采取随机抽样的方式选择一个子样本集,并基于此构建一个孤立树。

2) 在构建孤立树的过程中,每次都随机选择一个特征并确定其分割点来切分数据。

3) 持续分裂节点,直到数据完全被隔离或达到预设的树的最大深度。

4) 重复上述步骤构建多棵孤立树,逐步形成一片孤立森林。

当需要对数据集进行异常值检测时,孤立森林通过将数据集中各数据点输入到多个孤立树中,计算路径长度来评估其是否为异常点。在每棵孤立树中,数据点从根节点出发,直至被孤立。路径长度pic表示到达叶节点的步数。该算法通过计算所有孤立树的平均路径长度来确定数据点的异常分数pic

pic (1)

式中:pic为平均路径长度;pic为期望路径长度的修正因子。异常分数pic的值域为[0,1],计算得出越接近1的数据点越容易被隔离,越容易被识别为异常点,越接近0的数据点越不易被隔离,越容易被识别为正常点。

1.2 KNN算法

K近邻算法(K-nearest neighbors, KNN)是一种基础的机器学习方法,广泛应用于分类、回归及数据填补等任务[11]。其基本思想是通过计算待预测数据点与训练集数据点之间的相似性,基于最邻近的pic个样本的类别或数值来进行预测。KNN算法的核心在于对相似性度量的选择,通常使用欧氏距离来度量数据点间的距离。

当存在一个待预测数据点xpred时,给定对应数据集X={x1, x2,…, xn},欧氏距离可以通过式(2)进行计算:

pic (2)

式中:m是特征的维度;xpred,j是数据点的第j个特征;xij是训练集中第i个数据点的第j个特征。通过计算距离得出与目标数据点最接近的k个邻居。

在填补缺失值任务中,如果缺失值为类别型变量,使用k个邻居的多数进行填补:

pic (3)

其中,pic是填补后的类别;yi是邻居的类别。

如果缺失值为数值型变量,使用k个邻居的平均值进行填补:

pic (4)

其中,pic是填补后的类别;yi是邻居的目标值。

1.3 极端随机树算法

极端随机树算法(extremely randomized trees, ERT)的核心思想是在构建决策树时引入极端随机化的策略,相较于传统的随机森林算法在处理大量、多维度的数据时有着更优越的性能,ERT在节点划分时不仅随机选择特征,还随机选择分割阈值[12]。ERT算法结构如图2所示。

图2
极端随机树算法流程图
pic

极端随机树算法在每个节点随机选择一个特征及其随机分割点,将数据集划分为2个子集:

pic (5)

其中,j是特征索引;θ为随机选定的阈值。

在填补缺失值的过程中,ERT利用所有构建的树进行预测,对于给定的待填补样本pic,其填补值pic计算公式为:

pic (6)

式中:M为构建的树的总数;fm(x)是第m棵树对样本x的预测值。

1.4 投票法

在计算特征重要度的情境中,使用不同模型可能会给出不同的特征重要度排名,为了减少单一模型可能带来的偏差,可以使用投票法进行计算。投票法是一种集成学习策略,旨在通过结合多个独立模型的结果来提高结果的可靠性与稳定性,对于每个特征,投票法通过取多个模型的特征重要度值的加权平均作为结果,权重的选择基于模型的预测性能,决定系数R2衡量了模型对目标变量变异的解释程度,其值越高,表明模型的预测能力越强,从而最终生成更加准确的特征重要度排名。为了消除不同模型间重要性分数量级的差异,可以对每个模型m的特征重要性pic进行归一化处理:

pic (7)

其中,N是特征总数,随后使用决定系数R2确定每个模型的权重ωm,决定系数及权重的计算方法为

pic (8)pic (9)

其中,yi是第i个观测值的实际值;pic是第i个观测值的模型拟合值;pic是所有观测值的均值;n是样本量,最终特征fi的综合重要性pic通过加权平均得到:

pic (10)
1.5 算法评价指标

为了评估比较不同算法对数据集的填补效果,采用均方根误差(RMSE)、均方误差(MSE)、信噪比(SNR)、残差量化量化图等评估指标进行分析[13]。各指标计算公式见式(11)~(13):

pic (11)pic (12)pic (13)

式中:m是数据点的总数;pic是填补后的预测值;yi是填补前的真实值。

2 不良数据处理流程

铁路继电器退化特征参数具有数据量大、非线性等特点[14],一般算法在处理这类数据时可能会出现效率低下、需要预先标记、鲁棒性差、准确度较低等问题。为提高计算效率和填补精度,本文提出一种基于KNN-ERT的算法进行数据填补,基本流程图如图3所示。

图3
数据填补方法流程图
pic

KNN-ERT算法的整体计算流程如下。

1) 将经孤立森林去除不良数据后的数据集导入到KNN算法,完成初步插值。

2) 分析初步插值的误差,并将其作为进一步优化的输入数据。

3) 将KNN插值后的数据作为输入特征,构建一个ERT模型,ERT能够捕捉数据中复杂的非线性模式,特别适合处理含误差数据的非线性关系。ERT模型在训练过程中,会根据误差数据进行分裂,其分裂标准基于最小化节点的不纯度。设当前节点含误差数据样本R={r1, r2,…, rn},则在某个特征xi上寻找分裂点t,使得分裂后总方差最小。

分裂点选择的目标是:

pic (14)

式中:RleftRright是分裂后的左右子集;|R|是当前节点中的样本数;Var(·)是数据集的方差。

4) 将ERT修正的误差值加回到初步插值的结果中,得到更精确的插值数据集。

3 算例分析

3.1 实验平台搭建及退化特征参数计算

本文依据GB 14048.4―2016和GB 14048.5―2016规定搭建了铁路继电器电寿命实验平台。以铁路列车常用的西门子3RH2122-2KF40型号直流继电器为试验对象,进行实例分析。试验条件如表1所示。搭建的实验平台如图4所示。

表1
实验条件
试验参数具体数值试验参数具体数值
线圈电压/VDC 110工作制DC-12
负载电压/VDC 24负载电流/A0
负载类型阻性负载功率因数1
操作频率/(次∙h-1)360采样频率/kHz200
展开更多
图4
实验平台全貌图
pic

试验平台包含硬件系统和软件系统2个部分:硬件部分主要包括测量电路及线圈控制电路,软件部分采用Labview作为上位机控制系统,通过控制固态继电器的开断来控制线圈供电电路,以此实现对铁路继电器的自动开断。同时上位机系统通过对NI数据采集卡的采样时间与采样率等参数的设置,完成对铁路继电器开断过程中触头和线圈的电流、电压的电信号采集。

在电寿命实验中常用的退化特征参数有吸合时间、释放时间、接触电阻、弹跳时间、超程时间、燃弧能量等参数[15-16]。其计算表达式如表2所示。表达式中,N是触头稳定闭合时的采集点数;un、in为触点电压、电流;t1为线圈得电时刻;t2为动静触头第1次接触时刻;t3为电压电流波动停止时刻;t4为稳定吸合时刻;t5为线圈失电时刻;t6为起弧时刻;t7为熄弧时刻;∆t为相邻采样点时间间隔;fs为采样率;unx为2个触头断开时不同采集点数线圈电压。

表2
退化特征参数及计算表达式
特征名称计算表达式
弹跳时间pic
超程时间pic
燃弧时间pic
接触电阻pic
吸合时间pic
释放时间pic
释放电压pic
燃弧能量pic
展开更多
3.2 不良数据去除有效性验证

铁路继电器退化特征参数中的不良数据一般具有明显偏离正常值范围、原始信号波动剧烈等特点[17]。为验证去除不良数据方法的有效性,以吸合过程为例,对比了吸合时间与接触电阻均被识别为异常值或正常值的原始信号波形图,分别为均被识别为正常值的第82 008次开断和均被识别为异常的82 006次开断及85 560次开断。为方便观察将线圈电压缩小为原始值的1/3。其原始信号波形图分别如图5所示。

图5
原始信号波形图
pic

通过观察图5可以看出:在正常开断的情况下触头电压波动幅度较小,触头电流电压均较为平稳,而在异常开断的情况下触头电压波动幅度较大且波动剧烈不规则,触头电流也出现一定幅度的波动。图5(c)中的异常情况虽然也表现为触头电压波动剧烈,但与图5(a)相比波动的频率明显较快,类似于图5(a)的较大瞬时跳变现象通常与电弧现象有关,而类似于图5(c)中频繁的、无规律的波动现象通常与电气干扰、机械震动有关[18-19],这表明本方法能够有效识别由不同因素引起的不良数据。表3为3种重要参数在经本方法的每一阶段处理后的方差,可以看出本方法逐步降低了数据的波动与误差,提升了数据的稳定性。

表3
参数处理过程中的方差变化
参数名称原始数据去除异常值KNN填补ERT优化
吸合时间0.8330.8170.7840.714
接触电阻66.31465.01963.76660.895
释放时间0.4310.4110.3640.324
展开更多
3.3 模型对比试验及结果分析

在所有前置条件完全一致的情况下,本文分别采用线性插值、LOESS插值、卡尔曼滤波、随机森林(RF)、KNN、ERT和KNN-ERT共7种插值方式进行了数据填补,并分别计算了7种算法的RMSE指标、MSE指标、SNR指标数值,3种指标的计算结果如表4表5表6所示。

表4
MSE指标下各方法表现
参数名称异常值占比/%线性插值LOESS插值卡尔曼滤波KNN随机森林ERTKNN-ERT
吸合时间1.100.0050.0570.0480.0050.0060.0050.004
接触电阻7.816.63415.40613.9296.5816.7696.6816.439
释放时间2.620.0030.0420.0230.0040.0060.0040.002
展开更多
表5
RMSE指标下各方法表现
参数名称异常值占比/%线性插值LOESS插值卡尔曼滤波KNN随机森林ERTKNN-ERT
吸合时间1.100.0680.2400.2190.0700.0740.0730.064
接触电阻7.812.5753.9253.7322.5652.6022.5852.527
释放时间2.620.0580.2040.1530.0680.0770.0610.051
展开更多
表6
SNR指标下各方法表现
参数名称异常值占比/%线性插值LOESS插值卡尔曼滤波KNN随机森林ERTKNN-ERT
吸合时间1.1055.10644.15344.92954.73454.28054.45256.961
接触电阻7.8117.81414.04014.51117.84817.71917.78218.007
释放时间2.6252.81741.91744.43951.54550.36252.44455.368
展开更多

通过观察表46可以发现,KNN-ERT在不同评价指标下均有着比单独使用KNN或ERT插值更好的表现,因此可以做出如下分析:以接触电阻为例,KNN-ERT算法的RMSE值为2.527,低于单独使用KNN的2.565,与单独使用ERT的2.585。MSE值为6.386,低于单独使用KNN的6.581与单独使用ERT的6.681。SNR值为18.217高于单独使用KNN的17.848与单独使用ERT的17.782。虽然使用KNN填补缺失值在处理局部相似性高的数据时表现良好,但在处理具有非线性、全局复杂度高的铁路继电器数据集时表现欠佳。ERT通过随机化决策树构建全局复杂关系,能够充分捕捉到数据中的非线性特征,但在处理局部数据相似性时,ERT的表现欠佳。KNN-ERT的组合方法通过结合KNN的局部相似性建模能力和ERT的全局复杂性建模能力,在构建树的过程中引入了更多的随机性从而能有效减少过拟合的风险,同时在初步插值时提供了稳定的局部估计进而避免了该算法在全局拟合时的过度复杂化。

为了进一步验证提出的算法是否拥有更好的拟合效果,绘制了KNN、ERT和KNN-ERT算法的QQ图,QQ图(Quantile-Quantile Plot)也叫量化量化图用于比较数据的分布与理论正态分布之间的差异[20],得到的结果如图68所示。

图6
吸合时间量化量化图对比
pic
图7
接触电阻量化量化图对比
pic
图8
释放时间量化量化图对比
pic

在QQ图中理论分位数代表着在假设的正态分布下不同分位数的值,排序值是对实际的残差数据进行从小到大排序后的值,表示实际数据的位置,如果残差符合正态分布,所有的点都应该更贴近较细的参考线,这表示残差是随机的且模型没有遗漏某些重要特征,且不存在较大的系统性偏差,插值效果较好。

从图68可以看出KNN-ERT算法相较于分别单独使用KNN与ERT算法得出的QQ图更贴近参考线,说明该算法拥有更好的插值效果,验证了该算法拥有更强的准确性与鲁棒性。

基于KNN-ERT算法实现的3种特征参数数据的插值结果如图9所示。分析图9可知,KNN-ERT算法滤除了受多种因素影响产生的不良数据,最大限度地还原了数据在不受干扰情况下的真实值。

图9
KNN-ERT算法插值结果
pic

将原始数据与所有经过孤立森林去除不良数据的原始数据通过KNN-ERT算法进行插值处理后,输入到LightGBM和XGBoost模型进行增益计算,并使用投票法得到最终特征重要度排名对比如图10所示。

图10
处理前后特征重要度排名对比图
pic

图10中展示的2个模型的重要性已经与各自的权重进行了加权处理,同时,投票法避免了单一模型可能导致的排名不准确问题。通过对比原始数据的特征重要度排名发现,处理后的数据中接触电阻、燃弧能量的重要度大幅上升,释放时间的重要度大幅下降,这说明原始数据中的不良数据对特征重要度的计算存在干扰,如不进行不良数据处理会对后续的特征参量筛选、继电器健康检测和故障预测等步骤产生干扰,本文的研究为后续对继电器的健康状态分析打下了更为坚实的基础。

4 结论

1) 采用孤立森林算法对不良数据进行剔除,并使用KNN-ERT算法进行数据填补,得到一个拥有较高准确度且较强鲁棒性的填补结果。

2) 将KNN-ERT算法与传统的线性插值、随机森林、LOESS插值、卡尔曼滤波以及单独使用KNN或ERT算法进行了插值效果对比分析,结果表明KNN-ERT算法在RMSE、MSE、SNR以及量化量化图中均表现为最优算法,在量化量化图中更接近稳态分布,将最极端的偏差值从约80降低至约30,说明该算法在处理极端值时表现得更加稳健。

3) 通过对比处理前后数据的特征重要度,发现8种退化特征参数的特征重要度排名发生显著变化,这一结果说明采用本方法能够更精确地捕捉到铁路直流继电器的退化规律,并为后续的故障预测和设备维护策略提供更可靠的依据。

参考文献
1戴杰.

基于相似性度量与强化学习的铁路继电器状态识别研究

[D]. 沈阳: 沈阳工业大学, 2023.
百度学术谷歌学术
2李文华, 尹世桢, 赵正元, .

基于自适应可变权重的铁路继电器机电参数融合方法研究

[J]. 铁道科学与工程学报, 2022, 19(1): 248-255.
百度学术谷歌学术
3孙滢涛, 张锋明, 陈水标, .

基于多域特征提取的电力数据异常检测方法

[J]. 电力系统及其自动化学报, 2022, 34(6): 105-113.
百度学术谷歌学术
4GU Yingzhong, YU Zhe, DIAO Ruisheng, et al.

Doubly-fed deep learning method for bad data identification in linear state estimation

[J]. Journal of Modern Power Systems and Clean Energy, 2020, 8(6): 1140-1150.
百度学术谷歌学术
5KONG Ziqian, TANG Baoping, DENG Lei, et al.

Condition monitoring of wind turbines based on spatio-temporal fusion of SCADA data by convolutional neural networks and gated recurrent units

[J]. Renewable Energy, 2020, 146: 760-768.
百度学术谷歌学术
6HE Zhimin, LIU Yadong.

The field application analysis of dynamic line rating system based on tension monitoring

[C]// 2011 IEEE Power Engineering and Automation Conference. September 8-9, 2011, Wuhan. IEEE, 2012: 284-288.
百度学术谷歌学术
7LUKUSA M T, HING PHOA F K.

A Horvitz-type estimation on incomplete traffic accident data analyzed via a zero-inflated Poisson model

[J]. Accident Analysis & Prevention, 2020, 134: 105235.
百度学术谷歌学术
8宫晓婞, 董培信.

基于改进孤立森林算法的交通流异常数据检测模型

[J]. 重庆交通大学学报(自然科学版), 2024, 43(5): 61-69.
百度学术谷歌学术
9杨建, 王力, 宋冬然, .

基于孤立森林与稀疏高斯过程回归的风电机组偏航角零点漂移诊断方法

[J]. 中国电机工程学报, 2021, 41(18): 6198-6212.
百度学术谷歌学术
10ZENGIN A T, ERDEMIR G, AKINCI T C, et al.

Measurement of power line sagging using sensor data of a power line inspection robot

[J]. IEEE Access, 2020, 8: 99198-99204.
百度学术谷歌学术
11欧锦添, 乐燕芬, 施伟斌.

基于密文KNN检索的室内定位隐私保护算法

[J]. 数据采集与处理, 2024, 39(2): 456-470.
百度学术谷歌学术
12GEURTS P, ERNST D, WEHENKEL L.

Extremely randomized trees

[J]. Machine Learning, 2006, 63(1): 3-42.
百度学术谷歌学术
13刘树鑫, 高士珍, 刘洋, .

基于LSTM的交流接触器剩余寿命预测

[J]. 高电压技术, 2022, 48(8): 3210-3220.
百度学术谷歌学术
14高书豫.

基于数据驱动的交流接触器剩余电寿命预测研究

[D]. 沈阳: 沈阳工业大学, 2023.
百度学术谷歌学术
15WANG Kejun, QI Xiaoxia, LIU Hongda.

A comparison of day-ahead photovoltaic power forecasting models based on deep learning neural network

[J]. Applied Energy, 2019, 251: 113315.
百度学术谷歌学术
16JAIHUNI M, BASAK J K, KHAN F, et al.

A novel recurrent neural network approach in forecasting short term solar irradiance

[J]. ISA Transactions, 2022, 121: 63-74.
百度学术谷歌学术
17李文华, 王立国, 赵正元, .

铁路继电器温度加速寿命试验方案设计与分析

[J]. 铁道科学与工程学报, 2018, 15(4): 1023-1029.
百度学术谷歌学术
18刘翰霖, 李根军, 林楠, .

基于极端随机树的高光谱蚀变信息提取研究

[J]. 地理空间信息, 2023, 21(9): 57-60.
百度学术谷歌学术
19徐韬, 任其亮, 张磊, .

考虑时空关联的道路行程速度稀疏数据修复与解释性算法

[J]. 铁道科学与工程学报, 2025, 22(1): 77-88.
百度学术谷歌学术
20夏伟怀, 刘嘉莉, 冯芬玲.

基于随机森林的铁路冷藏运输需求预测

[J]. 铁道科学与工程学报, 2022, 19(4): 909-916.
百度学术谷歌学术
注释

刘树鑫,柴宇凡,李哲等.基于KNN-ERT算法的铁路继电器不良数据处理方法[J].铁道科学与工程学报,2025,22(10):4737-4748.

LIU Shuxin,CHAI Yufan,LI Zhe,et al.Faulty data processing method for railway relays based on the KNN-ERT algorithm[J].Journal of Railway Science and Engineering,2025,22(10):4737-4748.