RuCCoD: Towards Automated ICD Coding in Russian

作者: Aleksandr Nesterov, Andrey Sakhovskiy, Ivan Sviridov, Airat Valiev, Vladimir Makharev, Petr Anokhin, Galina Zubkova, Elena Tutubalina

发布时间: 2025-03-03

来源: arxiv

研究方向: 医疗信息处理与自然语言处理

主要内容

该研究旨在自动化俄罗斯语临床编码,以解决俄罗斯语在生物医学资源有限的情况下进行临床编码的可行性问题。研究者提出了一个新的数据集,用于ICD编码,包含来自电子健康记录的诊断字段,并标注了超过10,000个实体和1,500多个独特的ICD代码。研究者还应用了最佳模型来标注内部EHR数据集,并进行了实验,结果表明,与医生手动标注的数据相比,使用自动预测的代码进行训练可以显著提高准确性。

主要贡献

1. 提出并构建了首个用于俄罗斯语ICD编码的数据集(RuCCoD)。

2. 开发了基于BERT、LLaMA和RAG等模型的ICD编码基准。

3. 评估了从PubMed摘要到医疗诊断以及从UMLS概念到ICD代码的跨领域迁移学习。

4. 展示了自动标注的EHR数据集在训练疾病诊断模型方面的巨大潜力。

5. 证明了在资源有限的俄罗斯语等语言中自动化临床编码的潜力,以提高临床效率和数据准确性。

研究方法

1. 数据集构建:收集并标注了包含诊断结论的电子健康记录。

2. 模型训练:使用BERT、LLaMA和RAG等模型进行ICD编码。

3. 迁移学习:将模型性能从UMLS代码和类似数据集迁移到ICD编码任务。

4. 实验评估:在精心挑选的测试集上评估了模型的性能。

实验结果

实验结果表明,使用自动预测的代码进行训练的模型在测试集上的准确性显著高于使用医生手动标注的数据进行训练的模型。此外,实验还表明,迁移学习可以提高模型在ICD编码任务上的性能。

未来工作

未来研究将集中在将外部医学知识(如知识图谱)集成到ICD编码中,以提高ICD代码预测的准确性。此外,研究者还计划研究LLM在罕见代码上的泛化能力。