HuixiangDou2: A Robustly Optimized GraphRAG Approach
作者: Huanjun Kong, Zhefan Wang, Chenyang Wang, Zhe Ma, Nanqing Dong
发布时间: 2025-03-12
来源: arxiv
研究方向: 自然语言处理,知识密集型应用,图检索增强生成(GraphRAG)
主要内容
本文提出了一种名为HuixiangDou2的GraphRAG框架,旨在解决大型语言模型(LLM)在处理专业或新兴主题时的局限性。该框架通过将领域知识结构化为图来动态检索信息,并优化了检索机制和生成过程,以提高检索准确性和生成质量。
主要贡献
1. 提出了一种统一的GraphRAG框架,将多个GraphRAG方法整合到一个可扩展的管道中。
2. 评估和优化了检索技术,包括双级查询分解、逻辑形式检索和模糊匹配。
3. 通过系统性的消融研究,提供了关于GraphRAG-based QA系统性能改进因素的见解。
4. 提出了一个多阶段验证机制,以提高检索鲁棒性而不增加计算成本。
5. 将HuixiangDou2作为开源资源发布,以支持研究和采用。
研究方法
1. Graph-based Indexing:预处理、命名实体识别、存储嵌入。
2. Graph-Guided Retrieval:双级方法(低级关键词和高级关系描述),逻辑形式方法。
3. Graph-Enhanced Generation:利用LLM进行格式化、生成最终响应和验证。
4. Multi-Stage Verification:在检索前进行参数检查,以提高检索鲁棒性。
实验结果
在特定领域数据集上的实验表明,与基线相比,HuixiangDou2显著提高了LLM的性能。双级检索增强了模糊匹配,而逻辑形式检索提高了结构化推理。多阶段验证机制在提高检索鲁棒性的同时,没有增加计算成本。
未来工作
探索更鲁棒的验证器构建方法,提高LLM生成的步骤与知识图结构之间的对齐,以及结合逻辑形式和双级方法的混合方法,以实现更好的整体性能。