Multi-Task Learning for Extracting Menstrual Characteristics from Clinical Notes

作者: Anna Shopova, Cristoph Lippert, Leslee J. Shaw, Eugenia Alleva

发布时间: 2025-04-03

来源: arxiv

研究方向: 自然语言处理(NLP)在医疗健康领域的应用

主要内容

该研究旨在开发一种自然语言处理(NLP)管道,从临床笔记中提取关键月经周期属性,如痛经、规律性、流量和经间出血。

主要贡献

1. 开发了一种专门用于从临床笔记中提取五个临床相关月经属性的NLP管道。

2. 比较了监督微调(SFT)、上下文学习(ICL)和基于提示的学习(PBL)方法的性能。

3. 研究了引入检索数据预处理步骤的影响,该步骤使用混合方法来识别最相关的文本段。

4. 引入了多任务提示学习(MTPBL)来同时提取多个月经属性,与单任务方法相比,提高了泛化能力和效率。

研究方法

1. 数据集:从电子健康记录(EHR)中获取的临床笔记。

2. 标注:由临床医生手动标注,包括痛经、痛经严重程度、月经规律性、月经流量和经间出血。

3. 检索:使用混合方法(BM25和MedEmbed-small-v0.1)进行检索,以识别最相关的文本段。

4. 分类方法:包括监督微调(SFT)、上下文学习(ICL)、基于提示的学习(PBL)和多任务提示学习(MTPBL)。

5. 实验设置:使用3折交叉验证来优化超参数,并使用宏平均F1分数作为主要评估指标。

实验结果

MTPBL + 检索在所有任务上均取得了最高的F1分数,证明了多任务学习与检索相结合可以显著提高月经属性分类的性能。

未来工作

未来工作将集中在减少手动努力、扩展提取属性的范围、优化多任务学习以提高效率和可扩展性,以及验证这些方法在更大、多机构的数据库上的适用性。