Generating Clinically Realistic EHR Data via a Hierarchy- and Semantics-Guided Transformer

作者: Guanglin Zhou, Sebastiano Barbieri

发布时间: 2025-03-03

来源: arxiv

研究方向: 医疗数据生成与隐私保护

主要内容

本文提出了一种名为HiSGT的层次与语义引导的Transformer模型,用于生成具有高临床真实性的电子健康记录(EHR)数据。该模型结合了临床编码系统的层次结构和预训练临床语言模型提供的丰富语义信息,以生成更符合真实世界临床模式的合成数据。

主要贡献

1. 提出了一种结合层次和语义信息的新框架,以克服仅基于原始代码的生成方法的局限性。

2. 开发了一种增强的Transformer模型,该模型集成了精细的代码表示,能够生成具有高临床真实性的合成EHR数据。

3. 在两个真实的EHR数据集上展示了HiSGT的有效性,显示出数据质量、下游任务性能(例如疾病分类)和隐私保护的显著改进。

研究方法

1. 构建层次图来反映真实编码系统(如ICD)的层次结构。

2. 使用图神经网络(GNN)学习层次感知嵌入,以捕获医疗代码之间的结构化依赖关系。

3. 使用预训练的临床语言模型(例如ClinicalBERT)提取语义嵌入。

4. 将层次和语义嵌入融合到基于Transformer的生成器中,以更准确地建模真实EHR中的细微临床模式。

实验结果

在MIMIC-III和MIMIC-IV数据集上进行的实验表明,HiSGT在保持高临床真实性和隐私保护的同时,提高了数据质量、下游任务性能和隐私保护。HiSGT在保持高临床真实性和隐私保护的同时,提高了数据质量、下游任务性能和隐私保护。HiSGT在保持高临床真实性和隐私保护的同时,提高了数据质量、下游任务性能和隐私保护。

未来工作

未来研究可以探索以下方向:探索替代策略或更领域特定的预训练来进一步提高语义表示;在更广泛的下游任务(如风险分层或时间事件预测)上评估HiSGT的临床效用;优化训练策略和探索更有效的模型架构,以确保HiSGT在大型环境中的有效性。