Comparing representations of long clinical texts for the task of patient note-identification
作者: Safa Alsaidi, Marc Vincent, Olivia Boyer, Nicolas Garcelon, Miguel Couceiro, Adrien Coulet
发布时间: 2025-04-03
来源: arxiv
研究方向: 医学信息学,自然语言处理
主要内容
本文研究如何利用自然语言处理技术识别患者笔记,从而实现患者笔记的准确匹配。研究者比较了多种嵌入方法,包括HAN、HTN、LongFormer和BERT,并评估了不同的池化策略,以确定哪种方法最适用于处理中长临床文本。
主要贡献
1. 定义了患者笔记识别任务并强调了其重要性
2. 对多种患者表示学习方法进行了实证比较
3. 证明了基于BERT的模型,结合滑动窗口机制和平均最大池化,在识别患者笔记方面取得了最高准确率
研究方法
1. HAN BERTLSTM
2. HTN
3. Longformer
4. BERT
5. 平均池化
6. 最大池化
7. 平均最大池化
8. 滑动窗口机制
9. 分类算法(逻辑回归、随机森林、决策树、支持向量机、XGBoost)
实验结果
实验结果表明,基于BERT的模型在处理长临床笔记和捕获细微的患者表示方面优于传统的和层次化的模型。在池化策略中,平均最大池化始终产生最佳结果,这突出了其从临床笔记中捕获关键特征的能力。此外,在MIMIC数据集和Necker医院数据仓库上的结果再现性证明了这些方法在实际应用中的通用性。
未来工作
未来的工作可以探索更专门的模型,如ClinicalMamba和ModernBERT,并研究替代的聚合策略。此外,将结构化数据与未结构化文本结合,以及评估模型在下游临床任务中的有效性,都是未来研究的潜在方向。