基于性早熟电子病历中个体危险因素抽取评价提示词工程方法的性能

论著

基于性早熟电子病历中个体危险因素抽取评价提示词工程方法的性能

周费翔，

钟韬玮，

杨桂艳，

丁祥龙，

颜艳

中南大学学报(医学版)

第50卷, 第7期

pp.1224-1233

纸质出版 2025-07-28

DOI：10.11817/j.issn.1672-7347.2025.240651

21900

目的

性早熟危险因素的准确识别有助于临床诊疗，但运用自然语言处理非结构化数据的方法仍有待评价。本研究旨在基于性早熟电子病历中个体危险因素抽取评价提示词工程方法的性能。

方法

根据CRISPE(capacity and role-insight-statement-personality-experiment)提示词框架制订简单提示词和优化提示词，2种提示词分别引导大语言模型GLM-4-9B从653份电子病历记录中提取10种性早熟的危险因素，采用准确率、精确率、召回率和F1值作为信息抽取任务的评价指标。

结果

在简单提示词和优化提示词下，模型总体的准确率、精确率、召回率和F1值分别为84.18%、98.09%、81.99%、89.32%和97.15%、98.31%、98.16%、98.23%。优化提示词在年龄(<9岁和≥9岁)和就诊时间(<2023年和≥2023年)各组间的模型性能差异小于简单提示词。在简单提示词下，模型抽取每种危险因素的准确率的区间范围为60.03%~97.24%；在优化提示词下，准确率的区间范围为92.19%~99.85%。2种提示词在抽取“饮料摄入情况”时的准确率差异最大(60.03% vs 92.19%)，在抽取“母亲初潮年龄”时差异最小(97.24% vs 99.23%)。在简单提示词、优化提示词和真实值3种情况下，零食摄入情况、饮料摄入情况、豆浆摄入情况、蜂蜜摄入情况、保健品服用情况、补品服用情况、睡眠质量、开灯睡觉情况的分布特征差异均具有统计学意义(均P<0.001)，运动情况(P=0.966)和母亲初潮年龄(P=0.952)的分布特征差异无统计学意义。

结论

优化提示词相比简单提示词更能有效地完成电子病历中个体危险因素的抽取任务，表明提示词工程在提升大语言模型性能方面具有重要作用。

性早熟电子病历提示词工程大语言模型信息抽取

性早熟是指内、外生殖器发育和第二性征呈现的年龄提前于特定界限的内分泌疾病^[1]。研究^[2]表明：中国儿童性早熟患病率约为4.74%，其中女童患病率明显高于男童。性早熟不仅会导致患儿身高发育受限、心理发育异常，还可能增加成年后乳腺癌、子宫内膜癌等疾病的风险^[3]。

准确识别性早熟的个体危险因素对疾病的早期预防和干预具有重要意义。电子病历中包含大量与患儿病情相关的临床信息，是进行危险因素和预测模型研究的重要数据来源。然而，由于电子病历数据具有非结构化、表达方式多样等特点，人工标注或传统自然语言处理方法提取个体危险因素时往往面临诸多挑战^[4]。

近年来，以生成式预训练变换器(generative pre-trained transformer，GPT)系列模型为代表的大语言模型在自然语言处理领域取得了突破性进展，人工智能技术正在被尝试集成到医疗保健系统中^[5]。提示词工程可通过设计和优化特定的提示模板来引导大语言模型完成具体任务，其作为一种新兴的自然语言处理范式在多个领域展现出良好的应用前景^[6]。目前将提示词工程应用于性早熟电子病历分析的研究较少，如何设计有效的提示词模板以准确提取个体危险因素仍是一个亟待解决的问题。

本研究基于性早熟电子病历中的个体危险因素，探索提示词框架下抽取策略的有效性，最终构建性早熟电子病历个体危险因素抽取的提示词模板，为后续应用大语言模型构建临床专病数据集提供基础。

资料与方法

1.1

伦理声明

本研究已获得中南大学湘雅公共卫生学院伦理审查委员会的批准(审批号：XYGW-2023-40)，并保证个人敏感信息的安全性。

1.2

数据来源

收集2020年1月至2024年7月在某儿童医院就诊的性早熟患儿的电子病历数据。纳入标准：1)临床诊断为性早熟，包括初诊和复诊；2)病史记录涉及个体危险因素的有效信息。排除标准：1)电子病历基本信息记录缺失；2)重复就诊。根据纳入和排除标准，最终纳入653份电子病历作为待提取的数据集，其基本特征如表1所示。

性早熟电子病历数据集的基本特征

特征	例数	构成比/%
总体	653	100.0
年龄/岁
<9	400	61.3
≥9	253	38.7
性别
男	14	2.1
女	639	97.9
就诊时间
2023年前	377	57.7
2023年及以后	276	42.3

展开更多

1.3

危险因素检索与标注

根据文献[7-9]，将下列10种危险因素作为性早熟电子病历中待提取的数据元：零食摄入情况、饮料摄入情况、豆浆摄入情况、蜂蜜摄入情况、保健品服用情况、补品服用情况、睡眠质量、开灯睡觉情况、运动情况、母亲初潮年龄。参考代码表对相近语义进行赋值(表2)。采用双人交叉标注的方法，确定电子病历中个体危险因素的真实值(金标准)，遇到分歧时由第3位研究人员决定。

儿童性早熟个体危险因素的代码表

数据元	变量名	赋值说明
零食摄入情况	X₁	一般=1，较多=2，较少=3
饮料摄入情况	X₂	一般=1，较多=2，较少=3
豆浆摄入情况	X3	一般=1，较多=2，较少=3
蜂蜜摄入情况	X4	一般=1，较多=2，较少=3
保健品服用情况	X5	未服用=1，服用=2
补品服用情况	X6	未服用=1，服用=2
睡眠质量	X₇	较好=1，较差=2
开灯睡觉情况	X8	无=1，有=2
运动情况	X₉	一般=1，较好=2，较差=3
母亲初潮年龄	X₁₀	连续型变量

展开更多

1.4

信息抽取方法

1.4.1

数据预处理

根据医生的临床叙述习惯，待提取的危险因素会出现在电子病历的病史部分，因此在数据预处理时，将主诉、现病史、既往史3个部分合并为长文本病史。整合后的非结构化文本添加门诊号或住院号作为输入文本的标识符。

1.4.2

提示词工程

首先，设计一组简单提示词引导大语言模型明确任务要求并识别个体危险因素，实体关系抽取设定输出数据类型为半结构化的JavaScript对象表示法(JavaScript object notation，JSON)格式。其次，根据CRISPE(capacity and role-insight-statement-personality-experiment)提示词框架优化提示词^[10]，相较于简单提示词增加了角色和能力、上下文信息及补充信息等内容，旨在提升大语言模型对病历文本中关键信息的敏感度。简单提示词和优化提示词的内容比较见表3。

简单提示词和优化提示词的内容比较

名称	内容	简单提示词	优化提示词
角色和能力	你是一名专业的电子病历信息抽取专家	×	√
上下文信息	####后面的文本是对一名儿童就诊时的病史描述	×	√
任务要求	请从该非结构化的病史文本中抽取结构化的信息	√	√
输出格式	输出为如下格式：{"零食摄入情况":"","饮料摄入情况":"","豆浆摄入情况":"","蜂蜜摄入情况":"","保健品服用情况":"","补品服用情况":"","睡眠质量":"","是否常开灯睡觉":"","运动情况":"","母亲初潮年龄":""}	√	√
补充信息	若未提取内容，则输出为null。请正确提取内容，不要详细的解释	×	√

展开更多

×代表不包括，√代表包括。

1.4.3

模型部署和运行

GLM-4-9B是清华大学计算机系孵化的公司智谱AI推出的一款具有90亿参数规模的开源大型语言模型，在多项中文自然语言处理任务中表现出色，包括文本分类、命名实体(指文本中具有特定意义的专有名词)识别、关系抽取等。该模型在10万亿单位的语料中进行预训练，在多阶段的后训练中进行监督和微调，并基于人类反馈进行强化学习^[11]。

图1描述了基于大语言模型的性早熟电子病历信息抽取方法，即从非结构化文本中抽取结构化的数据元和值。本研究采用Ollama本地部署大语言模型GLM-4-9B^[12]，通过PostgreSQL数据库批量输入和输出数据，在4060ti显卡上运行模型后进行信息抽取，大语言模型根据优化提示词的输出结果示例见图2。采用R语言的jsonlite包解析半结构化输出数据，再经代码表映射为结构化数据。

图1

性早熟电子病历信息抽取示意图

图2

基于大语言模型的性早熟电子病历中个体危险因素抽取示例

1.5

模型评价方法

采用准确率、精确率、召回率和F1值评价不同提示词下GLM-4-9B在信息抽取任务中的模型性能，具体的计算如下：

(1)

(2)

(3)

(4)

式中真阳性(true positive，TP)定义为模型输出与实际信息语义一致，假阴性(false negative，FN)定义为模型输出与实际信息语义不一致，真阴性(true negative，TN)定义为模型正确识别实际不存在的信息，假阳性(false positive，FP)定义为模型错误识别实际不存在的信息。根据基本信息的入院时间和年龄进行模型性能评价的分层分析，评价GLM-4-9B在不同特征群体中进行信息抽取时的稳健性。

结果

2.1

模型性能的总体评价

模型性能评价的混淆矩阵图见图3。结果显示：优化提示词较简单提示词总体上能使大语言模型表现出更优异的性能(表4)。在优化提示词下，模型总体的准确率、精确率、召回率和F1值分别为97.15%、98.31%、98.16%和98.23%，较简单提示词(分别为84.18%、98.09%、81.99%和89.32%)均有提升，并且年龄和就诊时间各组间的模型性能差异为0~0.71%，差异最小的是年龄的精确率(<9岁：98.31%；≥9岁：98.31%)，差异最大的是年龄的准确率(<9岁：96.88%；≥9岁：97.59%)。在简单提示词下，模型总体的准确率、召回率和F1值在<9岁和≥9岁的组间差异分别为4.21%、4.73%和2.39%，在2023年前和2023年及以后组间差异分别为2.36%、3.56%和2.2%。

图3

模型性能评价的混淆矩阵图

大语言模型在简单提示词和优化提示词下的总体性能

特征	简单提示词				优化提示词
特征	准确率/%	精确率/%	召回率/%	F1值/%	准确率/%	精确率/%	召回率/%	F1值/%
总体	84.18	98.09	81.99	89.32	97.15	98.31	98.16	98.23
年龄/岁
<9	82.55	98.45	80.24	88.42	96.88	98.31	97.92	98.11
≥9	86.76	97.53	84.97	90.81	97.59	98.31	98.56	98.44
就诊时间
2023年前	83.18	98.00	80.45	88.36	97.24	98.29	98.23	98.26
2023年及以后	85.54	98.20	84.01	90.56	97.03	98.33	98.07	98.20

展开更多

2.2

个体危险因素的抽取性能

在个体危险因素抽取任务中，模型的准确率、精确率、召回率和F1值在简单提示词下的区间范围为60.03%~97.24%、90.14%~99.6%、50.98%~100%和66.5%~98.35%，在优化提示词下的区间范围为92.19%~99.85%、94.03%~99.8%、93.92%~100%和95.03%~99.9%(表5)。

大语言模型在简单提示词和优化提示词下抽取个体危险因素的性能

危险因素	简单提示词				优化提示词
危险因素	准确率/%	精确率/%	召回率/%	F1值/%	准确率/%	精确率/%	召回率/%	F1值/%
零食摄入情况	77.49	97.52	76.10	85.49	95.87	97.05	98.24	97.64
饮料摄入情况	60.03	95.57	50.98	66.50	92.19	94.03	96.06	95.03
豆浆摄入情况	83.92	99.52	79.96	88.67	99.54	99.61	99.81	99.71
蜂蜜摄入情况	83.92	99.51	79.80	88.57	99.85	99.80	100.00	99.90
保健品服用情况	84.69	99.02	84.11	90.96	95.56	98.80	96.32	97.54
补品服用情况	83.31	99.19	82.26	89.94	93.26	98.58	93.92	96.19
睡眠质量	91.12	98.83	92.03	95.31	98.47	98.46	100.00	99.22
开灯睡觉情况	85.60	99.60	84.51	91.44	99.39	99.66	99.66	99.66
运动情况	94.49	90.14	92.75	91.43	98.16	97.10	97.10	97.10
母亲初潮年龄	97.24	96.76	100.00	98.35	99.23	99.08	100.00	99.54

展开更多

在优化提示词下：1)豆浆摄入情况(准确率为99.54%，F1值为99.71%)、蜂蜜摄入情况(准确率为99.85%，F1值为99.90%)、开灯睡觉情况(准确率为99.39%，F1值为99.66%)和母亲初潮年龄(准确率为99.23%，F1值为99.54%)的准确率和F1值均超过99%；2)零食摄入情况(准确率为95.87%，F1值为97.64%)、保健品服用情况(准确率为95.56%，F1值为97.54%)、睡眠质量(准确率为98.47%，F1值为99.22%)和运动情况(准确率为98.16%，F1值为97.10%)的准确率和F1值均超过95%；3)饮料摄入情况(准确率为92.19%，F1值为95.03%)和补品服用情况(准确率为93.26%，F1值为96.19%)的准确率和F1值均超过92%。

优化提示词相比于简单提示词抽取饮料摄入情况的准确率、召回率和F1值分别增加32.16%、45.08%和28.53%，而抽取母亲初潮年龄时2种提示词的准确率、精确率和FI值则分别增加1.99%、2.32%和1.19%。

2.3

个体危险因素的分布特征

Pearson χ²检验和Kruskal-Wallis秩和检验表明：在简单提示词、优化提示词和真实值3种情况下，零食摄入情况、饮料摄入情况、豆浆摄入情况、蜂蜜摄入情况、保健品服用情况、补品服用情况、睡眠质量、开灯睡觉情况的分布特征差异具有统计学意义(均P<0.001)，运动情况(P=0.966)和母亲初潮年龄(P=0.952)的分布特征差异无统计学意义(表6)。

性早熟个体危险因素在简单提示词、优化提示词和真实值下的分布特征

危险因素	简单提示词	优化提示词	真实值	χ²/Z	P
零食摄入情况				120.647*	<0.001
一般	50(7.7)	56(8.6)	53(8.1)
较多	245(37.5)	244(37.4)	247(37.8)
较少	149(22.8)	265(40.6)	269(41.2)
其他	209(32.0)	88(13.4)	84(12.9)
饮料摄入情况				210.607*	<0.001
一般	82(12.6)	51(7.8)	51(7.8)
较多	88(13.5)	166(25.4)	172(26.4)
较少	142(21.7)	280(42.8)	285(43.6)
其他	341(52.2)	156(24.0)	145(22.2)
豆浆摄入情况				56.139*	<0.001
一般	41(6.3)	40(6.1)	40(6.1)
较多	28(4.3)	27(4.1)	27(4.1)
较少	345(52.8)	448(68.6)	447(68.5)
其他	239(36.6)	138(21.2)	139(21.3)
蜂蜜摄入情况				54.161*	<0.001
一般	14(2.1)	12(1.8)	11(1.7)
较多	9(1.4)	9(1.4)	9(1.4)
较少	387(59.3)	490(75.0)	490(75.0)
其他	243(37.2)	142(21.8)	143(21.9)
保健品服用情况				59.584*	<0.001
未服用	504(77.2)	573(87.7)	581(89.0)
服用	7(1.1)	9(1.4)	17(2.6)
其他	142(21.7)	71(10.9)	55(8.4)
补品服用情况				77.016*	<0.001
未服用	500(76.6)	572(87.6)	570(87.3)
服用	4(0.6)	2(0.3)	22(3.4)
其他	149(22.8)	79(12.1)	61(9.3)
睡眠质量				60.884*	<0.001
较好	564(86.4)	613(93.9)	611(93.6)
较差	27(4.1)	29(4.4)	29(4.4)
其他	62(9.5)	11(1.7)	13(2.0)
开灯睡觉情况				70.941*	<0.001
无	419(64.2)	508(77.8)	509(77.9)
有	85(13.0)	85(13.0)	85(13.0)
其他	149(22.8)	60(9.2)	59(9.1)
运动情况				1.398*	0.966
一般	123(18.8)	108(16.5)	112(17.2)
较好	18(2.8)	20(3.1)	19(2.9)
较差	72(11.0)	76(11.6)	76(11.6)
其他	440(67.4)	449(68.8)	446(68.3)
母亲初潮年龄/岁	12.40±1.3	12.40±1.3	12.45±1.2	0.060†	0.952

展开更多

连续型变量采用均数±标准差表示，分类变量采用频数(率)表示，“其他”包括未识别或不存在的内容。*χ²值，†Z值。

讨论

既往病例对照研究^[13]发现：饮食模式与儿童性早熟发病相关，高蔬菜和蛋白质饮食模式可作为保护因素，高动物性食物和水果饮食模式则为危险因素。除营养因素以外，夜间开灯睡觉增加下丘脑-垂体轴对雌激素正反馈的敏感性，是儿童性早熟的潜在原因^[14]。儿童在睡前1 h表现出对光照的高度敏感，暴露于夜间光线会抑制体内褪黑素的分泌，影响该群体的昼夜节律^[15]。这些危险因素及相应的生理生化机制在更大规模的纵向数据上验证后，可为性早熟提供具有证据支持的防治新策略。

电子病历使得医疗信息更易于存储、管理和传输，包含涉及流行病学研究所需的多种变量，例如人口学特征、生活方式因素、环境因素、实验室检查、影像学检查和疾病诊断等^[16]。根据数据标准并利用技术手段整合医院信息系统积累的大量数据是建设大型临床专病数据库的一个途径，高质量真实世界数据可以为个体危险因素的早期识别、疾病早期诊断和疾病转归预测方面提供支持^[17]。然而，电子病历中的非结构化文本数据无法作为定性或定量变量直接分析，通过信息抽取将非结构化数据转为结构化数据是利用电子病历形成可分析数据集的关键一步。

本研究基于性早熟电子病历中个体危险因素抽取评价提示词工程方法在大语言模型GLM-4-9B中的性能表现，发现在CRISPE提示词框架下，优化提示词能够有效完成危险因素的抽取任务，其精确率和召回率分别为98.31%和98.16%。优化提示词的准确率和F1值为97.15%和98.23%，较简单提示词分别提升12.97%和8.91%，表现出较大的性能差异。优化提示词通过引入角色和能力、上下文说明和补充信息等要素，进一步明确性早熟电子病历的信息抽取任务背景和要求，因此显著提升了模型在抽取个体危险因素时的性能。分层分析结果表明优化提示词能使大语言模型在不同年龄组和不同就诊时期的患者群体中均保持稳定的高性能水平，充分证实提示词工程能增加大语言模型的可靠性和普适性。在骨科领域，有研究^[18]询问大语言模型“美国骨科医师学会骨关节炎循证指南中各条建议的等级”，4种不同类型的提示词在GPT-4模型中的一致率为50.6%~63.0%，而带有反思的提示词可以提高对专业医学问题回答的准确性。

简单提示词对表达形式规范、描述相对固定的指标(如“睡眠质量”“运动情况”和“母亲初潮年龄”等)可以表现出较高的性能(各项评价指标均>90%)，而对表达方式多样、上下文依赖性强的指标则表现较差，例如在“饮料摄入情况”中抽取出“喝豆浆”“平时喜欢喝牛奶”“喜欢喝汤”等错误描述。虽然在简单提示词下表现欠佳，但通过优化提示词后可以显著提升模型性能，“饮料摄入情况”的准确率和F1值能从60.03%和66.50%增加至92.19%和95.03%。在此过程中，合理的提示词设计能够提高大语言模型对复杂临床数据的理解能力，明确命名实体的定义，从而更准确地识别与性早熟相关的风险因素。这表明提示词工程有助于大语言模型完成用户所定义的任务，特别是在处理表达形式多样化的临床叙述时具有重要价值^[19]。除了抽取电子病历中的个体危险因素外，提示词工程还可用于疾病诊断和评估。Fink等^[20]基于开发的文本提示评估GPT-4模型对肺癌CT报告进行数据挖掘的能力，结果表明GPT-4模型在提取病灶直径和识别转移部位的准确率分别为98.6%和98.1%，同时评估肿瘤恶化、稳定和改善3个进展类别的F1值均在95%以上。本研究在对性早熟个体危险因素的分布特征进行统计分析时发现，优化提示词与真实值的分布特征较为一致，而简单提示词除了运动情况和母亲初潮年龄以外会产生更多其他类别的回答，这说明优化提示词能更准确地识别具体的危险因素信息。利用大语言模型进行性早熟个体危险因素的识别可整理电子病历中非结构化的信息。一方面可结合风险预测模型或其他筛查工具早期判别性早熟儿童；另一方面可为家长提供具体的生活方式建议，从而预防性早熟的发生^[21-23]。

本研究采用的提示词工程方法相比基于规则与词典的方法和基于机器学习的方法具有以下优势： 1)无需大量标注数据进行训练；2)具有较强的可解释性；3)易于根据具体任务需求进行调整、优化。研究^[24]表明GPT-3模型对900多份病理报告进行信息抽取的成本不到72元。这些特点使得基于大语言模型的提示词工程方法在临床实践中，可以实现高效且低成本地从电子病历中获取患者的危险因素暴露情况及其他临床信息。此外，提示词工程的其他优化策略，如示例学习、链式思考等方法在提高大型语言模型复杂推理的能力方面可能具有更显著的优势^[25]。

综上所述，本研究根据在性早熟电子病历中抽取个体危险因素的结果，强调提示词工程方法在基于大语言模型的信息抽取中的重要性，为推进电子病历的智能化处理提供了新的研究和实践思路。随着大语言模型训练的优化，提示词工程有望从巨量的电子病历中释放高质量的真实世界数据资源。

参考文献

中华医学会儿科学分会内分泌遗传代谢学组, 中华儿科杂志编辑委员会, 傅君芬, 等.

中枢性性早熟诊断与治疗专家共识(2022)

[J]. 中华儿科杂志, 2023, 61(1): 16-22. https://doi.org/10. 3760/cma.j.cn112140-20220802-00693.

基于性早熟电子病历中个体危险因素抽取评价提示词工程方法的性能

目的

方法

结果

结论

资料与方法

伦理声明

数据来源

危险因素检索与标注

信息抽取方法

数据预处理

提示词工程

模型部署和运行

模型评价方法

结 果

模型性能的总体评价

个体危险因素的抽取性能

个体危险因素的分布特征

讨 论

结果

讨论