TIMER: Temporal Instruction Modeling and Evaluation for Longitudinal Clinical Records

作者: Hejie Cui, Alyssa Unell, Bowen Chen, Jason Alan Fries, Emily Alsentzer, Sanmi Koyejo, Nigam Shah

发布时间: 2025-03-07

来源: arxiv

研究方向: 医学自然语言处理，纵向临床记录的时间推理

主要内容

本文提出了一种名为TIMER的框架，用于评估和增强大型语言模型（LLMs）在纵向电子健康记录（EHRs）上的时间推理能力。TIMER框架包括两个主要组件：TIMER-Bench，一个用于评估LLMs在纵向EHRs上时间推理能力的基准；TIMER-Instruct，一种用于通过时间感知指令调整来提高LLMs纵向推理能力的方法。

主要贡献

1. 识别指令的时间分布作为评估临床语言模型的一个重要维度，并证明了现有基准中存在的时序差距限制了我们对LLM模型真实推理能力的理解。

2. 基于这一见解，引入了新的基准TIMER-Bench，用于评估纵向推理能力。

3. 开发了TIMER-Instruct，这是一种新的指令调整方法，考虑了时间依赖性，在医生生成的基准和TIMER-Bench上实现了最先进的性能。

研究方法

1. TIMER-Bench：通过整合时间证据生成评估集，以评估LLMs在纵向EHRs上的时间推理能力。

2. TIMER-Instruct：利用由LLMs生成的针对EHR不同部分的时间感知指令响应对进行指令调整。

3. 时间分布分析：分析了模型生成的指令响应对中的时间分布，以识别时间推理中的潜在偏差。

实验结果

TIMER-Instruct在人类生成的基准和TIMER-Bench上分别提高了7.3%和9.2%的性能，表明时间指令调整提高了LLMs对EHR进行推理的性能。

未来工作

将TIMER框架应用于其他需要处理具有复杂时间关系的文档或事件序列的领域；开发更鲁棒的评估方法，以评估医学环境中时间推理的能力；在部署该技术时，考虑部署环境，以确保适当使用这项技术。