Between Circuits and Chomsky: Pre-pretraining on Formal Languages Imparts Linguistic Biases

作者: Michael Y. Hu, Jackson Petty, Chuan Shi, William Merrill, Tal Linzen

发布时间: 2025-02-27

来源: arxiv

研究方向: 自然语言处理，语言模型，预训练

主要内容

本文研究了在形式语言上预训练语言模型对自然语言处理的影响，探讨了形式语言的特征如何影响预训练的效果，以及预训练对语言模型性能的提升。

1. 提出了一种基于形式语言的预训练方法，该方法结合了语言学理论和电路复杂度理论。

2. 发现具有层次结构和可由变压器学习的形式语言能够提高语言模型在自然语言上的表现。

3. 证明了预训练过程中学习到的注意力头在迁移到自然语言后仍然对模型性能至关重要。

4. 展示了预训练方法在1B参数语言模型预训练中的有效性，提高了token效率33%。

1. 基于Chomsky层次和电路复杂度层次，选择合适的预训练语言。

2. 使用不同的形式语言对语言模型进行预训练。

3. 通过比较不同预训练方法在自然语言上的性能来评估预训练效果。

4. 通过分析注意力头的重要性来探究预训练机制。

5. 对预训练语言进行更深入的分析，例如词汇量和规则结构的影响。

预训练语言模型在自然语言上的表现优于没有预训练的模型，其中k-Shuffle Dyck表现最佳。预训练能够提高模型的语言学泛化能力，并有助于模型学习语法、形态和语义等知识。

探索预训练在低资源环境下的效果，以及如何优化预训练过程。研究预训练对其他类型语言模型的影响，例如RNN和状态空间模型。