电弧炉炼钢实现了废钢、铁水、直接还原铁等多元炉料向温度和化学成分合格的钢水的转化,是废弃钢铁资源循环再生和利用的有效途径,也是缩短钢铁生产流程的核心环节,在钢铁工业绿色可持续和高质量发展中具有重要作用[1]。电弧炉炼钢终点钢水温度直接影响冶炼效率、过程物料消耗、能源消耗和产品质量[2]。然而,电弧炉炼钢过程物质-能量结构复杂,熔池化学反应剧烈,炉体结构不规则,钢水流速较低,导致冶炼终点钢水温度波动大。同时,电弧炉炼钢现场属于高温场合,工作环境恶劣,自动化和信息化水平低,数据采集和处理困难,直接监测和结果反馈误差大,过程操作缺乏标准化指导[3],这些不利因素进一步加剧了电弧炉炼钢终点钢水温度(EPT-MS)准确预测与监控的难度和不确定性。
近年来,随着人工智能和数字信息技术的快速发展,一些研究人员开始将数据挖掘技术应用于炼钢过程的温度预测,取得了一定进展。FERNÁNDEZ等[4]结合神经网络和模糊控制2种算法预测电弧炉炼钢终点温度,在±20 ℃和±25 ℃温度范围内的命中率(HR,算法/模型的预测值落在实际测量真实值的目标温度区间内的概率[5])分别达到80%和90%。KORDOS等[6]提出了一种改进型神经网络决策树模型,以均方根误差(RMSE)作为评价指标预测电弧炉炼钢终点温度。LI等[7]利用额外生成的时间序列工艺参数来弥补电弧炉冶炼过程中温度数据的缺失,开发了一种长短期记忆网络-生成式对抗网络混合模型,用于温度的实时预测。BLAŽIČ等[8]构建了一种基于数据驱动的Takagi-Sugeno模糊预测模型,利用Gustafson-Kessel聚类算法和模型参数粒子群优化得到的软传感器评估电弧炉炼钢终点温度,预测值与测量值之间的平均绝对误差(MAE)和标准差分别达到10 ℃和12 ℃。GAREAU-LAJOIE等[9]基于长短期记忆网络,通过数据驱动建模程序开发了一种中等规模电弧炉炼钢用温度预测模型,该模型在有限数据集上具有较高的预测精度。LIU等[10]利用时空卷积神经网络算法对影响炉内多物理场的主要参数进行解析,动态预测炉膛内温度场分布,准确率相较于传统多层感知机模型提高了1.58%。CHOI等[11]设计了一种基于支持向量回归算法的电弧炉炼钢终点温度预测模型。现场运行结果表明,相较于人工控制,该模型的温度预测偏差和能量消耗分别降低了17%和282 kW·h/炉。孔辉等[12]开发了一种基于BP神经网络的电弧炉炼钢终点温度预测模型并采用150 t超高功率电弧炉的实际生产数据进行优化,在温度误差范围为±20 ℃时,模型命中率可达82.5%。杨凌志等[13]同样采用BP神经网络方法,构建了90 t顶加料电弧炉炼钢终点成分和温度的双预测模型,该模型在实际生产应用中的温度命中率超过84%。陆泓彬等[14]对比了基于 e-FCNN、CART、FCNN、v-SVR、RF、ε-SVR等算法的100 t电弧炉终点温度预测模型,发现 e-FCNN模型在小样本且温度误差范围为±5 ℃下的命中率高达96.7%。陈超等[15]采用贝叶斯优化算法和梯度提升决策树算法,开发了Consteel电弧炉的终点碳质量分数和温度预测模型,在温度误差范围为±5、±10和±15 ℃下的命中率分别为62%、86%和95%。此外,集成学习、迁移学习等机器学习算法和机理-数据建模方法在电弧炉炼钢终点温度预测方面得到应用[16-18],实现了操作指导、工序降耗、过程监控和终点预测等优化效果。然而,考虑到可能出现的异常数据和复杂的工作条件,导致数据质量较低,严重影响了基于机器学习算法的预测模型的准确性,不建议只关注机器学习算法而忽略电弧炉炼钢全流程的数据挖掘分析策略[19]。重要特征变量的选择以及特征变量之间的相关性对于机器学习算法模型的优化至关重要。
本文提出电弧炉炼钢过程终点温度预测的完整数据挖掘策略,旨在从数据、特征和算法3个方面提高预测精度。该策略包括电弧炉炼钢过程原始数据准备、数据预处理、终点温度预测模型开发、优化与性能评价、结果再挖掘和影响因素分析5个主要步骤。以均方根误差、命中率、平均绝对误差、平均绝对百分比误差(MAPE)和计算成本作为评价指标,衡量数据质量、数据量、特征选择、预测算法模型对预测精度的影响。基于电弧炉炼钢过程的能量平衡分析,从4个不同阶段生成时间序列特征变量,扩大候选输入变量库,利用规则和专业知识对预测模型及其与过程变量的相关性进行探索和解释,验证所提出的数据挖掘策略的有效性、可靠性和合理性,提高其实际工程应用水平。
1 研究方法和电弧炉炼钢流程分析
1.1 数据挖掘方法
数据挖掘是一种先进高效的数据分析技术,包括原始数据准备、数据预处理(特征选择)、数据挖掘算法模型(浅层机器学习、深度学习、聚类分析、关联规则挖掘等)、模型应用和知识发现4个阶段[20]。前两者是整个过程的基础,直接影响数据挖掘的结果。数据挖掘算法模型是核心部分,包括预测性监督学习算法和描述性无监督学习算法。预测性监督学习算法主要包括回归和分类算法,其具有明确的预测目标,能解析输入和输出之间的定量因果关系。描述性无监督学习算法主要应用于异常检测、聚类分析、关联规则挖掘等领域,发现噪声数据中的规律和模式、关联关系、原始数据结构和分组。
1) 描述性无监督学习算法。描述性无监督学习算法包括自编码器(AE)和主成分分析(PCA),两者主要用于检测和删除电弧炉炼钢过程原始数据中错误观察和记录的异常数据,提高数据质量。
2) 预测性监督学习算法。本文所采用的4种预测性监督学习算法包括逻辑回归(LR)、k近邻(kNN)、决策树(DT)、极端梯度增强(XGBoost)算法,都用于映射输入和输出之间的关系。
1.2 电弧炉炼钢流程分析
本文研究对象为某厂的90 t电弧炉,采用铁水+废钢的炉料结构进行生产。铁水和废钢经过预处理和称质量后分批加入电弧炉,开始冶炼进程。根据电弧炉炼钢特点,将冶炼周期划分为4个阶段,如图1所示[21]。其中,第一阶段是在电极供电和氧气射流作用下金属炉料熔化期,第二和第三阶段是熔池中的C、Si、Mn、P、Fe等元素的氧化反应活跃期和初步造渣期,第四阶段为排渣、平熔池熔炼升温和化学成分调整期。当钢水的温度和化学成分满足要求时,停止冶炼过程并进行出钢操作,完成当前炉次冶炼后进入下一个循环。这4个阶段的能量需求和供给各不相同,钢水温度随时间不断变化。为了实现终点温度的高精度预测,需要考虑基于能量平衡分析的时间序列变量。
2025年9期/10.11817j.issn.1672-7207.2025.09.005/alternativeImage/D0733D37-EB89-49b0-8E73-CC354C84653D-F001.jpg)
熔池温度变化受到各阶段能量输入和输出的影响,其中,电能、氧气和石灰消耗是最重要因素[22]。电弧炉炼钢过程各阶段k(k=1,2,…,K)的能量平衡方程如式(1)所示。
2025年9期/10.11817j.issn.1672-7207.2025.09.005/alternativeImage/D0733D37-EB89-49b0-8E73-CC354C84653D-M001.jpg)
式中:2025年9期/10.11817j.issn.1672-7207.2025.09.005/alternativeImage/D0733D37-EB89-49b0-8E73-CC354C84653D-M002.jpg)
2025年9期/10.11817j.issn.1672-7207.2025.09.005/alternativeImage/D0733D37-EB89-49b0-8E73-CC354C84653D-M003.jpg)
2025年9期/10.11817j.issn.1672-7207.2025.09.005/alternativeImage/D0733D37-EB89-49b0-8E73-CC354C84653D-M004.jpg)
2025年9期/10.11817j.issn.1672-7207.2025.09.005/alternativeImage/D0733D37-EB89-49b0-8E73-CC354C84653D-M005.jpg)
2025年9期/10.11817j.issn.1672-7207.2025.09.005/alternativeImage/D0733D37-EB89-49b0-8E73-CC354C84653D-M006.jpg)
2025年9期/10.11817j.issn.1672-7207.2025.09.005/alternativeImage/D0733D37-EB89-49b0-8E73-CC354C84653D-M007.jpg)
2025年9期/10.11817j.issn.1672-7207.2025.09.005/alternativeImage/D0733D37-EB89-49b0-8E73-CC354C84653D-M008.jpg)
2025年9期/10.11817j.issn.1672-7207.2025.09.005/alternativeImage/D0733D37-EB89-49b0-8E73-CC354C84653D-M009.jpg)
2025年9期/10.11817j.issn.1672-7207.2025.09.005/alternativeImage/D0733D37-EB89-49b0-8E73-CC354C84653D-M010.jpg)
式中:2025年9期/10.11817j.issn.1672-7207.2025.09.005/alternativeImage/D0733D37-EB89-49b0-8E73-CC354C84653D-M011.jpg)
2025年9期/10.11817j.issn.1672-7207.2025.09.005/alternativeImage/D0733D37-EB89-49b0-8E73-CC354C84653D-M012.jpg)
2025年9期/10.11817j.issn.1672-7207.2025.09.005/alternativeImage/D0733D37-EB89-49b0-8E73-CC354C84653D-M013.jpg)
2025年9期/10.11817j.issn.1672-7207.2025.09.005/alternativeImage/D0733D37-EB89-49b0-8E73-CC354C84653D-M014.jpg)
式中:2025年9期/10.11817j.issn.1672-7207.2025.09.005/alternativeImage/D0733D37-EB89-49b0-8E73-CC354C84653D-M015.jpg)
2025年9期/10.11817j.issn.1672-7207.2025.09.005/alternativeImage/D0733D37-EB89-49b0-8E73-CC354C84653D-M016.jpg)
2025年9期/10.11817j.issn.1672-7207.2025.09.005/alternativeImage/D0733D37-EB89-49b0-8E73-CC354C84653D-M011.jpg)
2025年9期/10.11817j.issn.1672-7207.2025.09.005/alternativeImage/D0733D37-EB89-49b0-8E73-CC354C84653D-M018.jpg)
2 基于数据挖掘的电弧炉终点温度预测策略
基于数据挖掘的电弧炉终点温度预测策略流程见图2,其主要包括原始数据准备、数据预处理、终点温度预测模型开发、优化与性能评价、结果再挖掘和影响因素分析5个主要方面。
2025年9期/10.11817j.issn.1672-7207.2025.09.005/alternativeImage/D0733D37-EB89-49b0-8E73-CC354C84653D-F002.jpg)
2.1 原始数据准备与数据预处理
本文从一家电弧炉炼钢厂收集了1 235炉原始数据样本,其来源于钢种标准相关数据、制造执行系统(MES)数据和时间序列间接数据,如图1所示。原始数据准备将31个输入变量分为3类,对于时间序列变量,则按照0~8 min、9~16 min、17~ 24 min、25 min至冶炼终点将其划分为4个阶段的间接数据,并综合考察31个变量对最终电弧炉炼钢终点钢水温度的影响[23]。
采用异常检测和删除、数据分割和特征选择3个步骤对原始数据进行预处理,以提高数据质量。PCA和AE设置不同的阈值或删除比例,自动检测并删除不同比例的异常数据,保留合理的建模数据,提高预测精度。在正常工作条件下,电弧炉炼钢过程中被测变量之间的关联关系保持相对稳定。当出现异常数据时,测量变量超过了预定义阈值的限制,此时,通过PCA和AE都可以用来描述电弧炉炼钢过程和检测异常数据。特征选择和预测数据挖掘算法都要求输入变量具有相似的量级。因此,采用数据转换对原始输入数据变量x进行数据归一化处理,避免各种数据量级差异性过大而带来的预测误差增大的负面影响,如式(4)所示。
2025年9期/10.11817j.issn.1672-7207.2025.09.005/alternativeImage/D0733D37-EB89-49b0-8E73-CC354C84653D-M019.jpg)
式中:2025年9期/10.11817j.issn.1672-7207.2025.09.005/alternativeImage/D0733D37-EB89-49b0-8E73-CC354C84653D-M020.jpg)
2025年9期/10.11817j.issn.1672-7207.2025.09.005/alternativeImage/D0733D37-EB89-49b0-8E73-CC354C84653D-M021.jpg)
2025年9期/10.11817j.issn.1672-7207.2025.09.005/alternativeImage/D0733D37-EB89-49b0-8E73-CC354C84653D-M022.jpg)
在数据准备过程中,需要收集和生成大量不同的测量变量,以维持候选输入变量库和目标输出变量的完整性。在电弧炉炼钢过程中,并非所有的变量都与终点温度高度相关。信息冗余会对预测模型产生不利影响,且高数据维度会导致计算负载增加。因此,在本文中,通过对比输入变量和目标输出变量之间的皮尔逊相关系数和排列重要性,对LR、kNN、DT和XGBoost这4种预测性监督学习算法模型进行特征选择和降低信息冗余。根据各输入变量的排列重要值,由大到小进行排序,取前n个特征作为输入变量库(n=1、2、3、4、5、10、15、20、25、30),选择10组输入特征组合,研究其对预测性能的影响。在对数据量进行综合分析后,将训练集样本量/测试集样本量设为70%:30%。
2.2 数据挖掘算法预测模型开发、性能指标评价和影响因素分析
对原始数据进行预处理后,采用LR、kNN、DT和XGBoost这4种预测性监督学习算法建立电弧炉炼钢终点温度预测模型,而模型参数则通过k-fold交叉验证和网格搜索技术优化。将数据挖掘规则与EAF领域专业知识相结合,对模型预测结果进行解释。使用决策规则和关联规则分析模型预测误差与相关变量之间的相关性。
对于预测模型,本研究使用2组绩效评估指标。
第一组使用RMSE和HR进行输入特征选择和模型参数优化。RMSE是一个依赖于数据量级的参数,表示预测值与实际测量值的偏差程度。本文中HR则为模型的预测值落在实际测量真实值的3个典型目标温度波动范围±5、±10和±15 ℃内的概率。
第二组采用RMSE、HR、MAE和MAPE评价模型预测精度。MAE同样是一个依赖于数据量级的参数,表示平均绝对预测误差。与MAE和RMSE不同,MAPE是一个独立于数据量级的参数,提供了一种更直接的方法来反映预测模型的相对误差。
3 结果与讨论
3.1 数据预处理结果
3.1.1 异常检测及删除结果
异常数据删除比例分别为15%、35%和55%的二维检测边界、内值和离群值见图3。为使异常更容易被发现和检测,将原始的32维数据投影到二维空间。图3中,红色虚线为PCA和AE构建的检测边界。红色虚线检测边界覆盖的橙色区域为正常数据区域,黑色实心点表示已识别的异常数据,黑色空心点表示去除异常数据后需要保留的数据。PCA的异常检测边界近似圆形,而AE的异常检测边界为扇形。大多数黑色实心点是明显的异常数据,具有明显的物理读数误差。基于PCA和AE算法的3种异常数据删除比例的阈值和相应的数据量分布见表1。以AE算法下异常数据删除比例55%(以下简称AE+55%,其余类似)为例,679个数据样本被识别为异常,其中,60%的异常数据是由于终点温度超过1 700 ℃,与正常的1 620 ℃相差甚远,应从原始数据集中剔除;5%的异常数据表现为电能消耗过大,超过18 000 kW·h,或者是冶炼时间过长,超过50 min;5%的异常数据由于设备故障或人为操作失误造成的检测和采集的数据异常,如铁水的Si、Mn和P质量分数分别大于0.95%、0.44%和0.164%。
2025年9期/10.11817j.issn.1672-7207.2025.09.005/alternativeImage/D0733D37-EB89-49b0-8E73-CC354C84653D-F003.jpg)
| 算法 | 异常删除依据 | 删除比例/% | 阈值 | 删除数据量/个 | 保留数据量/个 |
|---|---|---|---|---|---|
| PCA | 平方预测误差统计量 | 15 | 7.822 | 186 | 1 049 |
| 35 | 5.207 | 432 | 803 | ||
| 55 | 3.822 | 679 | 556 | ||
| AE | 误差重构 | 15 | 38.252 | 186 | 1 049 |
| 35 | 21.657 | 432 | 803 | ||
| 55 | 15.000 | 679 | 556 |
3.1.2 特征选择结果
使用基于AE的异常检测和删除后的数据集,以55%的异常删除比例进行特征选择,训练集样本量/测试集样本量设为70%꞉30%。31个输入变量和输出变量之间的皮尔逊(Pearson)相关性评估结果见图4。从图4可见:一些输入变量之间存在很强的交叉性,导致信息冗余,如铁水质量、废钢质量和铁水比(铁水质量与入炉金属炉料总质量的比值)之间的Pearson系数均不小于0.85,废钢质量与铁水比之间的Pearson系数达到-0.97,表现出极强的负线性关系,信息冗余性强;铁水Si含量、Mn含量、P含量和S含量这4个变量之间也存在很强的线性关系,前三者呈线性正相关,Pearson系数在0.62~0.66之间;铁水S含量与其他3个变量呈线性负相关,Pearson系数在-0.61~-0.82之间。此外,所有的31个输入变量与输出变量表现出相对较低的线性相关性,只有铁水Si含量和碳粉消耗量的Pearson系数大于0.2。
2025年9期/10.11817j.issn.1672-7207.2025.09.005/alternativeImage/D0733D37-EB89-49b0-8E73-CC354C84653D-F004.jpg)
此外,本文使用最佳预测算法模型XGBoost评估31个输入特征的变量重要性。变量重要性排序结果如图5所示。碳粉消耗量是最重要的建模输入变量,其排列重要性为0.076左右,这意味着在电弧炉冶炼后期的辅助能量输入能稳定工况、改善数据质量,更有利于构建高精度的预测模型。碳粉消耗量、铁水Mn含量、天然气消耗量、铁水温度、第一阶段电能消耗的特征重要性值均超过0.058,成为最重要的5个输入变量。第一阶段石灰加入量和耗氧量是影响EPT-MS的重要变量,特征重要性的详细排序结果如图5所示。
2025年9期/10.11817j.issn.1672-7207.2025.09.005/alternativeImage/D0733D37-EB89-49b0-8E73-CC354C84653D-F005.jpg)
3.2 预测结果
3.2.1 模型参数优化
采用网格搜索的五重交叉验证方法对4种预测性监督学习算法模型进行优化。所有4种预测性监督学习算法模型的候选模型参数及其取值范围见表2。在训练集样本量/测试集样本量为70%꞉30%的情况下,对原始数据和采用AE算法预处理55%删除比例后保留的数据进行参数优化。
| 算法 | 参数和范围 | 结果 |
|---|---|---|
| LR | 正则化强度的倒数:0.01、0.1、1、10、100 | 100 |
| 正则化的类型Penalty:L1、L2 | L2 | |
| 最大迭代次数:100、200、300次 | 100次 | |
| DT | 决策树内部节点分裂需要的最小样本数:10、15、20、25个 | 25个 |
| 每个节点所需要的最小样本数:5、7、9个 | 9 | |
| 树的最大深度:5、10、15、20 | 5 | |
| kNN | 评估邻居的样本数量:2、3、4、5、6、7、8、9、10个 | 10个 |
| 计算邻居距离的算法:auto、ball tree、kd tree、brute | auto | |
| 树模型的叶子节点大小:10、30、50 | 10 | |
| XGBoost | 学习率:0.01、0.05、0.1 | 0.01 |
| 所集成的树的数量:700、900、1 100、1 300个 | 700个 | |
| 树的最大深度:5、10、15、20 | 5 |
3.2.2 4种监督学习算法模型的预测精度
4种算法模型在基于AE的异常检测和删除前后的MAE、RMSE、MAPE见表3。从表3可见:与其他3种预测算法模型相比,XGBoost算法的预测误差明显较小;在采用AE对原始数据进行异常检测和删除后,XGBoost算法预测的MAE、RMSE和MAPE进一步分别下降至6.516、8.033和0.004。LR模型预测误差最高,其CV-RMSE为0.035,约为XGBoost算法CV-RMSE的2倍。经异常检测和删除后,LR模型的CV-RMSE也显著下降至0.008。
| 评价指标 | 原始数据 | AE+55% 数据 | ||||||
|---|---|---|---|---|---|---|---|---|
| LR | kNN | DT | XGBoost | LR | kNN | DT | XGBoost | |
| MAE | 41.593 | 21.430 | 20.673 | 19.951 | 10.098 | 7.177 | 6.933 | 6.516 |
| RMSE | 56.943 | 29.188 | 29.910 | 28.880 | 12.265 | 8.760 | 8.760 | 8.033 |
| MAPE | 0.026 | 0.013 | 0.013 | 0.012 | 0.006 | 0.004 | 0.004 | 0.004 |
| 拟合优度 | -3.336 | -0.139 | -0.196 | -0.115 | -1.414 | -0.231 | -0.232 | -0.036 |
| CV-RMSE | 0.035 | 0.018 | 0.018 | 0.018 | 0.008 | 0.005 | 0.005 | 0.005 |
4种预测模型在±5、±10和±15 ℃的温度误差范围内的命中率HR见图6。由图6可知:无论是原始数据还是AE预处理后保留的数据,XGBoost算法在训练和测试数据集上的HR都比其他3种算法的高;LR算法的HR最低;对于这4种模型,训练集的HR均比相应测试集的高;采用原始数据和AE算法预处理55%删除比例后保留的数据进行建模,测试集上XGBoost算法模型在±5、±10和±15 ℃的温度误差范围内的命中率分别从16.44%、34.77%和54.45%提高到41.04%、80.35%和93.64%;训练集上XGBoost算法模型在±5、±10和±15 ℃的温度误差范围内的命中率分别从26.62%、49.19%和64.93%提高到84.62%、99.75%和100.00%。
2025年9期/10.11817j.issn.1672-7207.2025.09.005/alternativeImage/D0733D37-EB89-49b0-8E73-CC354C84653D-F006.jpg)
采用AE算法预处理55%删除比例后保留的数据和测试数据下的4种回归模型的预测结果与实际结果的比较见图7。从图7可见:总体而言,XGBoost算法模型具有较高的拟合优度,预测结果更接近真实的EPT-MS结果,且预测精度明显比DT、kNN和LR算法的高。但在大多数情况下,XGBoost的预测值在其峰值中略小于真实值。kNN和DT算法的峰值预测结果误差相似,而LR算法的预测值在真实值范围外波动明显。
2025年9期/10.11817j.issn.1672-7207.2025.09.005/alternativeImage/D0733D37-EB89-49b0-8E73-CC354C84653D-F007.jpg)
3.3 影响因素分析
3.3.1 异常检测和删除对终点温度预测结果的影响
考虑到XGBoost算法在预测精度上的显著优势,使用XGBoost算法作为终点温度的目标预测模型。采用PCA和AE对异常数据删除后,XGBoost算法模型所得到的终点温度预测结果见 图8。从图8可见:与原始数据相比,AE算法显著提高了3种异常删除比例的HR;当异常数据删除率从15%增加到55%时,XGBoost预测模型的HR显著增加;无论是训练集还是测试集,HR的增长趋势都一致。然而,PCA仅实现了训练数据的HR增加,而测试数据的HR降低,这意味着当采用描述性监督学习预测算法进行建模时,AE算法适用于异常检测和删除,可以提高终点温度预测精度。
2025年9期/10.11817j.issn.1672-7207.2025.09.005/alternativeImage/D0733D37-EB89-49b0-8E73-CC354C84653D-F008.jpg)
3.3.2 训练集样本量/测试集样本量对终点温度预测结果的影响
4种预测模型在9种不同训练集样本量/测试集样本量下的HR见图9。从图9可见:总体而言,对于9种训练集样本量/测试集样本量,使用原始数据的4种算法模型的HR均显著比使用AE预处理数据的HR低;对于使用原始数据的LR模型,当训练集样本量/测试集样本量超过50%꞉50%时,训练集的HR急剧上升到85%左右,而测试集的HR则相对稳定在45%以下。XGBoost模型的预测结果也表现出类似的现象。当训练集样本量/测试集样本量小于50%:50%时,优化后的LR和XGBoost模型都能很好地描述训练数据。但对于剩余的超过50%的测试数据,HR仍较低。kNN和DT模型的HR变化相对平稳。对于AE预处理数据,4种算法模型的HR均有所提高。随着训练集样本量/测试集样本量的增大,训练数据的HR呈上升趋势,而测试数据的HR呈下降趋势。特别是对于XGBoost模型,训练集的HR均大于78%,最高可达100%。在测试集中,XGBoost依然具有较高的HR,在±5、±10和±15 ℃的温度误差范围内,其HR分别为40%、60%~85%和85%~95%。
2025年9期/10.11817j.issn.1672-7207.2025.09.005/alternativeImage/D0733D37-EB89-49b0-8E73-CC354C84653D-F009.jpg)
3.3.3 输入特征变量数量对终点温度预测结果的影响
采用XGBoost算法作为预测模型,当训练集样本量/测试集样本量为70%꞉30%时,不同变量组合下4种模型的预测结果如图10所示。从图10可见:对于原始训练数据,选择更多的输入变量进行建模可以在一定程度上提高HR;当变量组合为FS-25时,HR达到最大值;对于原始测试数据,虽然较多变量的组合对预测HR有一定影响,但寻找最优变量组合并没有明显的规律;对于AE预处理数据,从训练集中选取更多的变量进行建模可以提高HR(变量组合FS-15最大HR超过80%),但对测试数据的HR没有明显影响;当选择变量组合FS-15时,XGBoost在±5 ℃误差范围内的HR仅为41%,而在±10 ℃和±15 ℃温度误差范围内的HR均超过80%。有些输入变量是共线性的,与输出变量的相关性较弱,这表明特征选择在降低训练建模成本、简化模型、提高模型预测精度方面的必要性和重要性。
2025年9期/10.11817j.issn.1672-7207.2025.09.005/alternativeImage/D0733D37-EB89-49b0-8E73-CC354C84653D-F010.jpg)
4 结论
1) 提出了一种基于数据挖掘的电弧炉终点温度预测方法,并验证了其合理性和有效性。应选择描述性无监督学习算法AE进行异常检测和删除。预测性监督学习算法XGBoost优于LR、kNN和DT,在±5、±10和±15 ℃的温度误差范围内,XGBoost算法模型的命中率分别超过40%、80%和95%,且该模型与电弧炉炼钢过程变量的相关性可以通过规则和领域知识进行解释。
2) 描述性无监督学习算法AE可以检测和删除异常数据,提高数据质量,显著提高模型预测精度。数据量对预测精度有一定的影响,训练样本的大小不宜过小,且特征选择对于简化预测模型非常重要。
3) 提出的基于数据挖掘的电弧炉炼钢终点温度预测策略获得了较高的预测精度和命中率,但考虑到算法之间可能存在互补效应,应将多种不同的算法结合起来,以进一步提高预测精度。此外,应采用更多实际的电弧炉炼钢工艺数据进行验证。
胡航, 邹雨池, 魏光升, 等. 基于数据挖掘的电弧炉炼钢终点温度预测研究[J]. 中南大学学报(自然科学版), 2025, 56(9): 3627-3639.
HU Hang, ZOU Yuchi, WEI Guangsheng, et al. Research on molten steel end-point temperature prediction model in electric arc furnace steelmaking process using data mining methods[J]. Journal of Central South University(Science and Technology), 2025, 56(9): 3627-3639.
http://dx.doi.org/10.11817/j.issn.1672-7207.2025.09.005

