DeepRAG: Building a Custom Hindi Embedding Model for Retrieval Augmented Generation from Scratch

作者: Nandakishor M

发布时间: 2025-03-12

来源: arxiv

研究方向: 自然语言处理(NLP)和检索增强生成(RAG)

主要内容

本文提出了一种名为DeepRAG的框架,用于从头开始构建针对印地语的高质量文本嵌入模型,以用于检索增强生成应用。该框架涵盖了从语料库收集、特定于印地语的SentencePiece分词器训练、Transformer架构设计,到对比学习技术进行模型训练的端到端过程。

主要贡献

1. 提出了一种从零开始构建语言特定嵌入模型的方法,每个组件都针对印地语进行了优化。

2. 开发了一个专门针对印地语的SentencePiece分词器,该分词器在超过270万篇印地语文本的语料库上进行了训练。

3. 设计了一个定制的Transformer架构,该架构具有增强的注意机制和针对印地语语义表示的池化策略。

4. 采用对比学习技术和合成数据生成进行多阶段训练,以获得鲁棒的嵌入。

5. 将嵌入与LangChain集成,以构建有效的印地语RAG系统。

研究方法

1. 语料库收集和分析

2. 特定于印地语的SentencePiece分词器训练

3. Transformer架构设计,包括多分辨率注意机制、形态学感知前馈和脚本混合处理

4. 对比学习和合成数据生成用于模型训练

5. LangChain集成以构建RAG系统

实验结果

DeepRAG在印地语语义相似性任务中显著优于多语言替代方案,检索精度提高了23%。在RAG应用中,DeepRAG检索精度提高了23.9%。

未来工作

将DeepRAG扩展到其他Indic语言,同时保留语言特定优化;将印地语知识图纳入语义表示;为法律、医学或技术印地语等特定领域开发专用模型;创建针对特定检索目标的指令调整印地语嵌入。