Multi-Task Learning for Extracting Menstrual Characteristics from Clinical Notes
作者: Anna Shopova, Cristoph Lippert, Leslee J. Shaw, Eugenia Alleva
发布时间: 2025-04-03
来源: arxiv
研究方向: 自然语言处理(NLP)在医疗健康领域的应用
主要内容
该研究旨在开发一种自然语言处理(NLP)管道,从临床笔记中提取关键月经周期属性,如痛经、规律性、流量和经间出血。
主要贡献
1. 开发了一种专门用于从临床笔记中提取五个临床相关月经属性的NLP管道。
2. 比较了监督微调(SFT)、上下文学习(ICL)和基于提示的学习(PBL)方法的性能。
3. 研究了引入检索数据预处理步骤的影响,该步骤使用混合方法来识别最相关的文本段。
4. 引入了多任务提示学习(MTPBL)来同时提取多个月经属性,与单任务方法相比,提高了泛化能力和效率。
研究方法
1. 数据集:从电子健康记录(EHR)中获取的临床笔记。
2. 标注:由临床医生手动标注,包括痛经、痛经严重程度、月经规律性、月经流量和经间出血。
3. 检索:使用混合方法(BM25和MedEmbed-small-v0.1)进行检索,以识别最相关的文本段。
4. 分类方法:包括监督微调(SFT)、上下文学习(ICL)、基于提示的学习(PBL)和多任务提示学习(MTPBL)。
5. 实验设置:使用3折交叉验证来优化超参数,并使用宏平均F1分数作为主要评估指标。
实验结果
MTPBL + 检索在所有任务上均取得了最高的F1分数,证明了多任务学习与检索相结合可以显著提高月经属性分类的性能。
未来工作
未来工作将集中在减少手动努力、扩展提取属性的范围、优化多任务学习以提高效率和可扩展性,以及验证这些方法在更大、多机构的数据库上的适用性。