Beyond Words: A Latent Memory Approach to Internal Reasoning in LLMs

作者: José I. Orlicki

发布时间: 2025-03-03

来源: arxiv

研究方向: 大型语言模型（LLMs）内部推理与认知神经科学

主要内容

本文提出了一种将隐式心理表征集成到LLMs内部推理过程中的框架。该框架包含一个隐式记忆模块（IMM），用于动态存储和检索潜在表示，以提高推理效率。

1. 提出了一种将隐式记忆集成到LLMs中的方法，提高了内部推理的效率。

2. 通过实验验证了IMM的有效性，表明其在GPT模型中实现了显著的训练损失降低。

3. 提出了一个可选的显式可解释性通道，以在需要时提供对内部推理过程的解释。

4. 探讨了IMM与人类认知的相似性，并强调了其在模拟人类思维过程中的潜在价值。

1. 隐式记忆模块（IMM）的设计与实现。

2. 通过注意力机制进行记忆的读取和存储。

3. 低秩投影技术以降低计算复杂度。

4. 多任务学习，将CoT解码器与主要语言模型联合优化。

在Shakespeare数据集上进行的实验表明，与传统的GPT模型相比，IMM模型在所有测试配置中都实现了显著的训练损失降低，损失降低了35%到57%。

探索更安全、更有效的显式可解释性方法，例如轻量级的CoT解码器或其他形式的受控显式监督。进行更深入的理论分析和消融研究，以优化潜在记忆机制的设计。