RigoChat 2: an adapted language model to Spanish using a bounded dataset and reduced hardware

作者: Gonzalo Santamaría Gómez, Guillem García Subies, Pablo Gutiérrez Ruiz, Mario González Valero, Natàlia Fuertes, Helena Montoro Zamorano, Carmen Muñoz Sanz, Leire Rosado Plaza, Nuria Aldama García, David Betancur Sánchez, Kateryna Sushkova, Marta Guerrero Nieto, Álvaro Barbero Jiménez

发布时间: 2025-03-12

来源: arxiv

研究方向: 自然语言处理(NLP)和大型语言模型(LLM)的优化与适应

主要内容

本文研究了如何利用有限的计算资源,通过数据收集、处理和模型训练,优化和适应大型语言模型,使其在西班牙语任务中表现更佳。

主要贡献

1. 提出了一种收集和处理高质量数据的方法,以适应西班牙语的大型语言模型。

2. 开发了一种使用LLM来扩充对话数据集的新技术。

3. 对西班牙语言模型响应的自动评估方法进行了审查和实验分析。

4. 创建了一个高质量的西班牙语对话数据集,用于偏好学习。

5. 利用该数据集创建了一个名为RigoChat 2的模型,这是一个针对西班牙语言进行优化的开放权重LLM,在西班牙语任务中表现出更好的性能。

研究方法

1. 数据收集:从各种公共和私有来源收集大量西班牙语对话。

2. 数据过滤:应用质量标准筛选低质量和不适当的对话。

3. 数据扩充:使用LLM生成对话线程的替代响应,以扩充数据集并提高其质量。

4. 自动评估:开发并使用自动评估方法来评估生成的响应的质量。

5. 直接偏好优化(DPO):使用DPO算法改进性能并使LLM适应特定语言。

6. 模型量化:使用llama.cpp库对模型进行量化,以实现高效的推理。

实验结果

RigoChat 2在西班牙语问答任务中表现出优于其他LLM的性能,包括基线模型和更强大的模型。此外,量化版本的模型在保持与原始模型相同精度的同时,减少了计算资源的需求。

未来工作

未来研究将集中于提高数据质量、开发更有效的评估方法,并整合先进的训练技术,以进一步提高LLM的性能和效率。