Bridging Legal Knowledge and AI: Retrieval-Augmented Generation with Vector Stores, Knowledge Graphs, and Hierarchical Non-negative Matrix Factorization

作者: Ryan C. Barron, Maksim E. Eren, Olga M. Serafimova, Cynthia Matuszek, Boian S. Alexandrov

发布时间: 2025-03-01

来源: arxiv

研究方向: 法律知识人工智能

主要内容

本文提出了一种名为Smart-Slic的生成式AI框架,旨在解决法律领域中的信息检索和推理问题。该框架结合了检索增强生成(RAG)、向量存储(VS)、知识图谱(KG)以及分层非负矩阵分解(NMF)等技术,以增强法律信息检索和AI推理能力,并减少幻觉现象。

主要贡献

1. 提出了一种名为Smart-Slic的生成式AI框架,用于法律领域的知识检索和推理。

2. 利用向量存储、知识图谱和NMF技术,实现了对法律文本的语义理解和关系挖掘。

3. 通过结合RAG技术,提高了法律信息检索的准确性和效率。

4. 通过实验验证了该框架在法律文档聚类、摘要和交叉引用等任务中的有效性。

研究方法

1. 数据收集:从Justia等平台爬取法律文本。

2. 维度约简:使用非负矩阵分解(NMF)对法律文本进行降维。

3. 知识图谱构建:将法律文本和相关信息构建成知识图谱。

4. 向量存储:使用向量存储对法律文档进行索引。

5. 检索增强生成:结合RAG技术,实现对法律信息的检索和生成。

实验结果

实验结果表明,Smart-Slic框架在法律文档聚类、摘要和交叉引用等任务中取得了良好的效果,尤其是在处理大规模、非结构化案例法律数据时,其准确性和效率得到了显著提升。

未来工作

未来工作将包括以下方面:完善引用提取流程,扩大数据集范围,引入更多法律工具,以及利用高级LLM驱动的推理进行更深入的先例分析和趋势预测。