HuixiangDou2: A Robustly Optimized GraphRAG Approach

作者: Huanjun Kong, Zhefan Wang, Chenyang Wang, Zhe Ma, Nanqing Dong

发布时间: 2025-03-12

来源: arxiv

研究方向: 自然语言处理,知识密集型应用,图检索增强生成(GraphRAG)

主要内容

本文提出了一种名为HuixiangDou2的GraphRAG框架,旨在解决大型语言模型(LLM)在处理专业或新兴主题时的局限性。该框架通过将领域知识结构化为图来动态检索信息,并优化了检索机制和生成过程,以提高检索准确性和生成质量。

主要贡献

1. 提出了一种统一的GraphRAG框架,将多个GraphRAG方法整合到一个可扩展的管道中。

2. 评估和优化了检索技术,包括双级查询分解、逻辑形式检索和模糊匹配。

3. 通过系统性的消融研究,提供了关于GraphRAG-based QA系统性能改进因素的见解。

4. 提出了一个多阶段验证机制,以提高检索鲁棒性而不增加计算成本。

5. 将HuixiangDou2作为开源资源发布,以支持研究和采用。

研究方法

1. Graph-based Indexing:预处理、命名实体识别、存储嵌入。

2. Graph-Guided Retrieval:双级方法(低级关键词和高级关系描述),逻辑形式方法。

3. Graph-Enhanced Generation:利用LLM进行格式化、生成最终响应和验证。

4. Multi-Stage Verification:在检索前进行参数检查,以提高检索鲁棒性。

实验结果

在特定领域数据集上的实验表明,与基线相比,HuixiangDou2显著提高了LLM的性能。双级检索增强了模糊匹配,而逻辑形式检索提高了结构化推理。多阶段验证机制在提高检索鲁棒性的同时,没有增加计算成本。

未来工作

探索更鲁棒的验证器构建方法,提高LLM生成的步骤与知识图结构之间的对齐,以及结合逻辑形式和双级方法的混合方法,以实现更好的整体性能。