Mellow: a small audio language model for reasoning

作者: Soham Deshmukh, Satvik Dixit, Rita Singh, Bhiksha Raj

发布时间: 2025-03-13

来源: arxiv

研究方向: 音频语言模型与推理能力

主要内容

本研究提出了一种名为Mellow的小型音频语言模型,专门设计用于推理任务。通过设计特定的训练数据和模型架构,Mellow在多个推理任务上取得了优异的性能,证明了即使在参数规模较小的情况下,也能够实现强大的推理能力。

主要贡献

1. 开发了一种名为Mellow的小型音频语言模型,用于推理任务。

2. 创建了ReasonAQA数据集,用于训练音频语言模型,以增强其推理能力。

3. 通过实验证明了Mellow在推理任务上的优越性能,包括音频理解、演绎推理和比较推理等。

4. 进行了广泛的消融研究,以探索影响推理性能的关键因素,如投影层选择、合成数据生成方法和语言模型预训练等。

研究方法

1. 设计了一个小型音频语言模型Mellow,用于推理。

2. 创建了一个名为ReasonAQA的数据集,该数据集由现有数据集和合成数据组成,用于训练模型。

3. 在多个推理任务上对Mellow进行了评估,包括音频理解、演绎推理和比较推理等。

4. 进行了广泛的消融研究,以分析不同组件对推理性能的影响。

实验结果

Mellow在多个推理任务上取得了优异的性能,包括音频理解、演绎推理和比较推理等。在MMAU基准测试中,Mellow的得分与一些大模型相当,但使用了更少的参数和更少的数据。在演绎推理任务中,Mellow优于所有其他音频语言模型。在比较推理任务中,Mellow在 Tier-1 和 Tier-3 级别上表现最佳。

未来工作

未来研究可以探索以下方向:进一步提高小型音频语言模型的推理能力,探索更有效的训练数据生成方法,以及将Mellow应用于实际场景中。