近年来,新型基础设施建设快速推进,作为新基建领域之一的第5代移动通信技术(5th generation mobile communication technology, 5G),是支撑经济社会数字化、网络化、智能化转型的关键[1-2]。目前,铁路领域着力发展铁路5G专用移动通信(5G for railways, 5G-R)系统,集群调度通信作为其最具特色的业务,实现指挥人员与相关运输参与人员之间的语音、数据和视频通信,由5G-R宽带集群通信系统即MCX系统实现。MCX系统网元结构复杂,业务功能繁多,当通信故障时,大都采用人工方式通过测试数据和经验进行故障排查和定位,效率较为低下,缺少智能化的识别与分析手段。采用机器学习实现系统、网络的智能故障识别,国内外学者进行了卓有成效的研究。杨亚让等[3]利用随机森林算法提高对网络节点特征的决策能力,实现了无线传感器通信网络阻塞故障的检测及检测准确性的提高。CHEN等[4]将随机森林算法特征选择和支持向量机故障分类有效结合,实现了固体氧化物燃料电池系统的故障分类及检测准确性的提高。朱圳等[5]提出特征构造算法以挖掘通信网络告警信息和数据中的潜在特征,通过多种集成学习算法实现了故障分类及分类准确性的提高。WADI[6]提出了2种基于二元分类改进的机器学习模型用于智能电网的故障检测,并对数据集的平衡和模型的超参数进行优化从而提高了故障检测的准确性。ZIDI等[7]提出一种基于支持向量机的故障检测方法,实现了无线传感器网络的故障检测。然而,这些机器学习算法的复杂决策规则需要消耗较多的计算和时间资源,特别是处理大规模数据集时,会影响其在资源受限场景中的应用。对于有监督学习的机器学习来说,数据标记的准确性直接影响模型的训练效果,而在实际应用中存在样本数据难以高质量标记的问题。此外,机器学习的性能提升空间有限也会导致模型性能提升不足,且在不同数据集的适用性方面研究极少。随着算法优化和计算机硬件的发展,深度学习成为许多领域应用的热点,例如机械领域[8-9]和化工领域[10],然而对于铁路通信领域的文献较少。周璐婕等[11]设计了多尺寸卷积核模型以更全面地提取文本特征,并基于卷积神经网络(CNN)实现了列控车载设备的智能故障分类。孙宇嫣等[12]利用深度置信网络处理高纬度特征信息,提出实时故障诊断框架,实现了通信网络故障的准确诊断与定位。LIN等[13]提出一种基于深度混合学习的故障诊断模型,实现了列车控制通信系统的故障检测及检测效率和准确性的提高。WANG等[14]利用图神经网络提取互联网通信网络的特征,实现了故障检测与定位及结果准确性和效率的提高。然而这些模型的复杂度较高,对计算资源和时间的需求较大,且这些方法在面对复杂网络时需要消耗较多的计算资源和时间才能达到最佳效果,很难在要求实时性与资源有限的场景中应用。因此,亟需研究5G-R宽带集群通信的故障识别技术,并重点解决数据量大且故障数据分布不均匀等挑战。针对以上问题,本文主要工作如下:1) 利用多维特征融合数据构建方法构建用于故障分类模型训练和测试的样本数据集。2) 针对大规模和分布不均匀特点的数据集,提出一种反馈驱动的自适应超参数优化(FDAHO)算法,包括对数据采样及处理方法的优化以及超参数优化算法的改进。3) 分别利用深度神经网络(DNN)和CNN构建基于FDAHO算法的故障分类模型,并利用不同的公共数据集对比验证算法的可行性。最终利用基于FDAHO算法的故障分类模型实现对MCX系统通信故障实测样本的分类。
1 MCX系统通信故障识别模型
1.1 MCX系统通信故障分析
MCX系统是实现5G-R宽带集群通信的核心,主要由MC应用、SIP核心、接口网关等单元组成[15]。通过研究MCX系统通信的实际场景和业务流程,分别从数据链路层、传输层、网络层、应用层等层次分析,构建MCX系统通信故障类型如表1所示。
| 故障位置 | 具体故障 |
|---|---|
| 数据链路层 | 链路故障 |
| 传输层 | 信令内容故障;信令流程故障 |
| 网络层 | 网络性能故障 |
| 应用层 | 媒体编解码错误 |
| 其他 | MCX系统故障;MCX系统并发能力限制 |
数据链路层为终端与MCX系统之间实现通信的数据链路,其故障可归纳为链路故障;传输层主要负责信令传输,其故障可归纳为信令内容故障和信令流程故障;网络层故障主要表现为网络性能较差,可归纳为网络性能故障;应用层主要涉及媒体流的传输,其故障主要为媒体编解码错误;除此之外还归纳出MCX系统故障以及MCX系统并发能力限制。本文针对以上7种故障类型实现MCX系统通信故障的识别分类。
1.2 MCX系统通信故障数据构建方法
特征的提取以及数据集的构建对于模型的训练和分类的性能至关重要。将测试收集的故障记录进行数据处理后提取多个维度的潜在数据特征,利用多维特征融合的方法构建MCX系统通信故障数据集,如表2所示。
| 序号 | 数据特征 | 特征含义 | 序号 | 数据特征 | 特征含义 |
|---|---|---|---|---|---|
| 1 | duration | 连接持续时间 | 19 | avg_tcp_packet_size | TCP平均分组大小 |
| 2 | protocol_type | 协议类型 | 20 | tcp_syn_ratio | TCP协议SYN包占比 |
| 3 | service | 网络服务类型 | 21 | tcp_rst_ratio | TCP协议RST包占比 |
| 4 | flag | 连接状态 | 22 | tcp_ack_ratio | TCP协议ACK包占比 |
| 5 | src_bytes | 源主机至目标主机字节数 | 23 | tcp_fin_ack_ratio | TCP协议FIN ACK包占比 |
| 6 | dst_bytes | 目标主机至源主机字节数 | 24 | tcp_syn_ack_ratio | TCP协议SYN ACK包占比 |
| 7 | land | 连接来自/送达同主机端口 | 25 | tcp_psh_ack_ratio | TCP协议PSH ACK包占比 |
| 8 | wrong_fragment | 错误分段数量 | 26 | tcp_fin_psh_ack_ratio | TCP协议FIN PSH ACK包占比 |
| 9 | urgent | 加急包个数 | 27 | max_tcp_sliding_win | TCP 滑动窗口最大值 |
| 10 | TTL | 生存时间 | 28 | min_tcp_sliding_win | TCP 滑动窗口最小值 |
| 11 | packet_size | 数据包大小 | 29 | udp_packet_count | UDP数据包数量 |
| 12 | retransmission_rate | 重传率 | 30 | udp_byte_count | UDP数据包字节数 |
| 13 | RTT | 往返时间 | 31 | avg_udp_packet_size | UDP平均分组大小 |
| 14 | network_jitter | 网络抖动 | 32 | tcp_fin_ack_ratio | TCP协议FIN ACK包占比 |
| 15 | avg_rtt | 平均往返时间 | 33 | arp_response_count | ARP响应数据包数量 |
| 16 | inter-packet_interval | 数据包间隔区间大小 | 34 | icmp_count | ICMP数据包数量 |
| 17 | tcp_packet_count | TCP数据包数量 | 35 | icmp_unreach_rate | ICMP不可达率 |
| 18 | tcp_byte_count | TCP数据包字节数 |
1.3 基于DNN超参数优化的故障识别模型
通过研究DNN及其分类实现过程,构建如图1所示的基于DNN超参数优化的故障识别模型,其中FDAHO算法为本文所提算法。利用FDAHO算法结合DNN获取网络配置的最佳超参数——学习率和批次大小,再利用配置最佳超参数的DNN对原始测试数据集进行分类,得到性能指标的评估结果。

数据集经过去标签处理后得到初始值列向量,通过输入层传递到第1个隐藏层,输出矩阵为

式中:








式中:






前一个隐藏层的输出为下一个隐藏层的输入,则第

其中,所有的元素值

式中:










最终经过所有隐藏层的数据处理后,到达输出层,得到结果为

式中:


利用准确率




召回率

其中,



其中,

式中:















2 FDAHO算法
2.1 数据采样及处理优化算法
对原始训练数据集进行采样处理,能够有效降低超参数优化过程中计算和时间的消耗。为保证超参数优化结果的最优性,采样结果需最大程度地涵盖原始训练数据集的故障类型,即具备足够的代表性。由于MCX系统通信故障数据具有分布不均匀的特点,常见的采样方法例如简单随机抽样、分层抽样等,可能导致占比大的故障类型被过度代表,而占比少的故障类型被忽略甚至遗漏,无法保证数据子集的可代表性,直接影响采样结果的准确性。因此,对数据采样及处理方法进行优化,提出基于随机初始聚类中心的K-means聚类采样组合(K-means clustering sampling combination, K-means-CSC)方法如图2所示。

首先通过随机初始聚类中心对原始训练数据集进行多次K-means聚类采样,形成预定义数量的多个数据子集,然后通过反馈验证条件筛选需组合的数据子集,形成多个不同组合的训练数据和测试数据的集合,用于后续优化算法的迭代超参数优化过程。具体过程如下。
步骤1:预定义簇数量和随机的初始聚类中心,对原始训练数据集进行K-means聚类,形成包含不同故障类型及特征的簇。较少的簇数量可能导致聚类效果粗糙,过多的簇数量可能导致过拟合,结合故障类型数量设置为10。
步骤2:定义采样比例,较高的采样比例会导致超参数优化过程耗时较多,一般为0.2左右,结合实验效果设置为0.16。遍历每个簇进行分层采样,得到数据子集
步骤3:重复步骤1和步骤2直至得到

式中:


步骤4:将所得数据子集进行组合,得到数据集合

其中,



式中:










该方法一方面利用K-means聚类结果作为分层采样的分层结果,从而保障采样数据子集中各故障类型的抽样涵盖率;另一方面,利用不同采样数据子集组合的方法,提高数据集合的可代表性,并结合后续的FDAHO算法,实现用较少的数据量,获得较优的超参数优化结果。
2.2 超参数优化算法
贝叶斯优化算法通过建立高斯过程回归代理模型来近似目标函数,并在每次迭代中通过采集函数选择新的样本点进行评估,以逐步找到最优解。这种单一的超参数优化流程在面对大规模数据集时会消耗大量的计算和时间资源,且添加采样过程会牺牲所得的超参数下网络的性能。所提FDAHO算法如图3所示,首先利用上述数据采样及处理优化方法对输入的原始训练数据集进行处理,再结合负反馈模块和更新模块迭代进行贝叶斯优化最后输出超参数选择结果,其中负反馈及更新模块流程如图4所示。


FDAHO算法具体内容如下。
步骤1:将原始训练数据集通过数据采样及处理优化方法得到数据集合



步骤2:定义超参数搜索空间

其中,


式中:





定义目标函数为

其中,

式中:










步骤3:使用训练集合


式中:




利用训练集合




步骤4:将步骤3所得性能指标结果设为验证阈值,并设置
步骤5:选取测试集合









式中:
类似地,对于批次大小搜索空间

式中:
随后返回步骤3;若是,则继续执行步骤6。
步骤6:判断是否遍历完测试集合


在常规的贝叶斯优化框架上引入了负反馈机制与搜索空间自适应调整,构建了反馈驱动的自适应超参数优化过程。通过采样数据的迭代组合,以及性能指标对比评估和动态调整,不断提高训练数据的代表性和超参数结果的准确性,从而实现在显著减少数据量的同时获得更优的超参数,较大程度地减少计算和时间消耗。
3 实验验证
3.1 KDD-CUP99公共数据集实验及分析
KDD-CUP99数据集是一个被广泛使用的网络入侵检测公共数据集,包含494 021条网络情况样本,每条样本由41个特征构成,被标记为正常或4种主要攻击类型[17]。由于通信故障分类和网络入侵检测都涉及对网络流量的分类任务,且两者都需要利用网络流量数据的特征,故选择该公共数据集对表3中各组合方法进行实验验证。为保证结果的准确性,不同方法中的DNN或CNN网络配置均一致,各方法运行10次求取指标结果平均值,结果如表3所示。
| 模型 | 准确率 | F1分数 | 超参数优化时间/s |
|---|---|---|---|
| DNN | 0.983 59 | 0.976 48 | — |
| 贝叶斯优化算法+DNN | 0.998 77 | 0.998 70 | 4 581.458 |
| FDAHO算法+DNN | 0.998 84 | 0.998 73 | 2 611.419 |
| CNN | 0.990 55 | 0.986 09 | — |
| 贝叶斯优化算法+CNN | 0.997 34 | 0.997 01 | 6 487.412 |
| FDAHO算法+CNN | 0.998 07 | 0.998 04 | 2 897.314 |
根据表3的数据,绘制KDD-CUP99数据集下不同分类模型性能对比图,如图5所示。

如图5所示,无论采用DNN网络还是CNN网络,经过超参数优化算法所得的最佳超参数配置后,准确率和F1分数均有明显的提升。从表3可得,在DNN网络模型下,FDAHO算法对比无超参数优化算法准确率提高1.525%,F1分数提高2.225%;FDAHO算法对比贝叶斯优化算法准确率提高0.007%,F1分数提高0.003%,超参数优化时间减少约1 970 s。在CNN网络模型下,FDAHO算法对比无超参数优化算法准确率提高7.520%,F1分数提高1.195%;FDAHO算法对比贝叶斯优化算法准确率提高0.073%,F1分数提高0.103%,超参数优化时间减少约3 590 s。因此,对比同一网络模型下的2种算法,FDAHO算法能在保证其准确率和F1分数接近甚至优于贝叶斯优化算法的情况下,显著降低超参数优化所需的时间。进一步对比不同网络模型下的FDAHO算法,DNN网络模型下的准确率和F1分数均高于CNN网络模型下的,且DNN网络模型下FDAHO算法超参数优化时间更少。此外,CNN网络模型复杂度更高,与FDAHO算法结合后的迭代过程中存在梯度爆炸的现象,影响FDAHO算法的迭代优化过程,综上选择DNN网络和FDAHO算法结合实现故障识别模型的构建。
3.2 UNSW-NB15公共数据集实验及分析
UNSW-NB15数据集同样是一个著名的网络入侵检测公共数据集,包含约257 673条样本,每条样本由49个特征构成,标记为正常或9种不同的攻击类型[18-22]。不同方法中的DNN或CNN网络配置均一致,各方法运行10次求取指标结果平均值,结果如表4所示。
| 模型 | 准确率 | F1分数 | 超参数优化时间/s |
|---|---|---|---|
| DNN | 0.725 11 | 0.700 50 | — |
| 贝叶斯优化算法+DNN | 0.769 49 | 0.728 00 | 3 147.467 |
| FDAHO算法+DNN | 0.772 46 | 0.731 86 | 1 381.763 |
| CNN | 0.729 58 | 0.702 63 | — |
| 贝叶斯优化算法+CNN | 0.765 80 | 0.726 73 | 3 887.578 |
| FDAHO算法+CNN | 0.776 73 | 0.741 53 | 1 761.881 |
根据表4的数据,同样绘制了该数据集下不同分类模型性能对比图,如图6所示。

如图6所示,经过超参数优化算法所得的最佳超参数配置后,准确率和F1分数均有明显的提升。从表4可得,在DNN网络模型下,FDAHO算法对比无超参数优化算法准确率提高4.735%,F1分数提高3.136%;FDAHO算法对比贝叶斯优化算法准确率提高0.297%,F1分数提高0.386%,超参数优化时间减少约1 766 s。在CNN网络模型下,FDAHO算法对比无超参数优化算法准确率提高4.715%,F1分数提高3.890%;FDAHO算法对比贝叶斯优化算法准确率提高1.093%,F1分数提高1.480%,超参数优化时间减少约2 126 s。因此,对比同一网络模型下的2种算法,FDAHO算法能在保证其准确率和F1分数接近甚至优于贝叶斯优化算法的情况下,显著降低超参数优化所需的时间。进一步对比不同网络模型下的FDAHO算法,尽管DNN网络模型下的准确率和F1分数略低于CNN网络模型下的,但DNN网络模型下FDAHO算法超参数优化时间更少,此外,CNN网络模型下梯度爆炸现象出现频率更大,需添加梯度裁剪机制缓解,这会导致FDAHO算法的迭代优化无意义。故选择利用DNN网络模型构建故障识别模型。
3.3 MCX系统通信故障数据集实验及分析
利用全实物平台搭建MCX系统通信故障测试环境[23-24],依次模拟表1中的7种故障类型,在终端侧通过Wireshark进行数据包抓取,再利用Pyshark提取表2中的35个特征,一个数据包的所有特征作为一条样本,最终构建MCX系统通信故障实测数据集,包含347 211条样本。不同方法中的DNN或CNN网络配置均一致,各方法运行10次求取指标结果平均值,结果如表5所示。
| 模型 | 准确率 | F1分数 | 超参数优化时间/s |
|---|---|---|---|
| DNN | 0.803 77 | 0.794 91 | — |
| 贝叶斯优化算法+DNN | 0.887 02 | 0.881 74 | 3 576.187 |
| FDAHO算法+DNN | 0.890 05 | 0.884 96 | 1 424.093 |
| CNN | 0.776 96 | 0.757 08 | — |
| 贝叶斯优化算法+CNN | 0.866 82 | 0.862 26 | 3 717.790 |
| FDAHO算法+CNN | 0.874 83 | 0.871 02 | 1 861.011 |
根据表5的数据,绘制实测数据集下不同分类模型性能对比图,如图7所示。

如图7所示,对于实测数据集,经过超参数优化算法所得的最佳超参数配置后,准确率和F1分数均有明显的提升。从表4可得,在DNN网络模型下,FDAHO算法对比无超参数优化算法准确率提高10.734%,F1分数提高11.328%;FDAHO算法对比贝叶斯优化算法准确率提高0.342%,F1分数提高0.365%,超参数优化时间减少约2 152 s。在CNN网络模型下,FDAHO算法对比无超参数优化算法准确率提高12.596%,F1分数提高15.050%;FDAHO算法对比贝叶斯优化算法准确率提高0.924%,F1分数提高1.016%,超参数优化时间减少约1 857 s。结论与公共数据集下的仿真验证一致,FDAHO算法能在保证准确率和F1分数接近甚至优于贝叶斯优化算法的情况下,显著降低超参数优化所需的时间,且与DNN网络结合下的表现更好,可实现对MCX系统通信故障的高准确率和高效分类。
4 结论
1) 通过全实物平台测试和多维特征提取融合,构建了涵盖终端到MCX系统数据链路层、传输层、网络层和应用层等7种故障类型的MCX系统通信故障实测数据集,为模型的训练和测试提供了数据支持。
2) 针对大规模且分布不均的故障数据,提出FDAHO算法,分别结合DNN网络和CNN网络建立故障分类模型,并在KDD-CUP99和UNSW-NB15公共数据集上进行了实验验证。结果表明贝叶斯超参数优化算法难以同时保证较低的超参数优化时间和较高的分类准确率、F1分数,而FDAHO算法能在保证甚至提升分类准确率和F1分数的情况下,显著减少超参数优化的时间,特别是在与DNN结合的模型中,因此在解决5G-R宽带集群通信的故障识别问题上具有较大优势。
3) 最终利用FDAHO算法结合DNN网络构建的故障分类模型实现了对MCX系统通信故障的高准确率和高效分类,显著提升了模型在资源受限环境下的实用性。
该研究为5G-R宽带集群通信系统的智能故障识别提供了有效的解决方案,对提高铁路通信系统的可靠性和智能化水平具有重要的实用价值。
Deep hybrid learning based fault diagnosis for data communication systems in communication-based train control systems
[C]//乔婉淇,丁建文,郭强亮等.基于DNN超参数优化的5G-R宽带集群通信故障识别[J].铁道科学与工程学报,2025,22(10):4749-4760.
QIAO Wanqi,DING Jianwen,GUO Qiangliang,et al.5G-R broadband trunking communication fault identification based on DNN hyperparameter optimization[J].Journal of Railway Science and Engineering,2025,22(10):4749-4760.

