SKG-LLM: Developing a Mathematical Model for Stroke Knowledge Graph Construction Using Large Language Models
作者: Ali Sarabadani, Kheirolah Rahsepar Fard, Hamid Dalvand
发布时间: 2025-03-11
来源: arxiv
研究方向: 生物医学信息学、知识图谱、大型语言模型
主要内容
本文提出了一种名为SKG-LLM的知识图谱构建方法,利用大型语言模型(LLM)和数学模型从与中风相关的文献中提取和构建知识图谱。该方法旨在通过分析复杂的实体关系,提高中风研究的准确性和深度。
主要贡献
1. 提出了一种基于知识图谱的模型SKG-LLM,用于构建与中风相关的知识图谱。
2. 使用GPT-4进行数据预处理和嵌入提取,提高了知识图谱构建的准确性和效率。
3. 结合了贝叶斯网络和张量分解技术,对实体关系进行建模和提取。
4. 通过与传统评估方法和LLM评估方法相结合,验证了SKG-LLM模型的性能。
5. 构建的知识图谱包含2692个节点和5012条边,覆盖了13种节点类型和24种边类型。
研究方法
1. 数据集提取:从PubMed数据库中提取与中风相关的文献。
2. 数据预处理:使用GPT-4进行文本清理、归一化和嵌入提取。
3. 参数估计:计算实体之间的互信息,构建概率矩阵,并应用对数归一化。
4. 实体和关系提取:使用贝叶斯网络、LDA和张量分解技术。
5. 模型优化:使用期望最大化(EM)算法优化模型参数。
实验结果
SKG-LLM在传统评估方法和LLM评估方法中均表现出良好的性能。与传统方法相比,SKG-LLM在精确度和召回率方面均有显著提升。与现有的知识图谱相比,SKG-LLM在构建的知识图谱质量和关系提取准确率方面均有所提高。
未来工作
未来工作将包括:进一步优化模型参数,提高知识图谱的准确性和完整性;探索将SKG-LLM应用于其他疾病领域;结合深度学习和机器学习技术,提高知识图谱构建的自动化程度。