SOLAR: Scalable Optimization of Large-scale Architecture for Reasoning

作者: Chen Li, Yinyi Luo, Anudeep Bolimera, Marios Savvides

发布时间: 2025-03-07

来源: arxiv

研究方向: 大型语言模型(LLM)推理优化与拓扑结构自适应

主要内容

本文提出了一种名为SOLAR的框架,旨在优化大型语言模型在推理任务中的表现。SOLAR通过动态优化推理拓扑结构,包括树和图,来提高准确性和效率。它引入了Topological-Annotation-Generation(TAG)系统来自动化拓扑数据集的创建和分割,以及Topological-Scaling框架,以实现训练和推理缩放的同步。

主要贡献

1. 系统性地评估了不同的推理拓扑结构(CoT、ToT和GoT)在数学推理数据集上的表现,验证了不同问题从不同拓扑结构中受益。

2. 开发了Topological-Annotation-Generation(TAG)系统,自动化生成和标注具有不同拓扑结构的推理数据集。

3. 提出了Topological-Scaling框架,包括Topological Tuning、Topological Rewarding和Hybrid Scaling,以优化LLM推理性能。

4. 训练了一个多任务Topological Reward Model(M-TRM),在单个步骤中自动选择最佳推理拓扑和答案,减少了训练和推理的延迟。

5. 在MATH和GSM8K数据集上实现了显著的性能提升,证明了SOLAR框架的有效性。

研究方法

1. 系统评估:通过在MATH和GSM8K数据集上对不同的推理拓扑结构进行评估,验证了不同问题从不同拓扑结构中受益。

2. 数据生成与标注:开发TAG系统来自动化生成和标注具有不同拓扑结构的推理数据集。

3. Topological-Scaling框架:包括Topological Tuning、Topological Rewarding和Hybrid Scaling,以优化LLM推理性能。

4. M-TRM训练:训练一个多任务Topological Reward Model(M-TRM),在单个步骤中自动选择最佳推理拓扑和答案。

实验结果

在MATH和GSM8K数据集上,SOLAR实现了显著的性能提升。Topological Tuning提高了5%的准确率,Topological Rewarding提高了9%的准确率,Hybrid Scaling提高了10.02%的准确率。此外,SOLAR还减少了超过5%的响应长度,降低了推理延迟。

未来工作

探索不同问题段性能差异背后的驱动机制,优化推理结构与缩放定律之间的协同效应,研究动态拓扑推理在更广泛领域的通用性。