ProtTeX: Structure-In-Context Reasoning and Editing of Proteins with Large Language Models

作者: Zicheng Ma, Chuanliu Fan, Zhicong Wang, Zhenyu Chen, Xiaohan Lin, Yanheng Li, Shihao Feng, Jun Zhang, Ziqiang Cao, Yi Qin Gao

发布时间: 2025-03-13

来源: arxiv

研究方向: 蛋白质科学和大型语言模型

主要内容

本文介绍了一种名为ProtTeX的新型框架,该框架可以将蛋白质序列、结构和文本信息统一编码为离散的符号空间,从而提高大型语言模型(LLM)在蛋白质科学领域的应用能力。通过将蛋白质结构和序列信息纳入LLM的训练和推理过程中,ProtTeX能够帮助LLM更好地理解蛋白质功能、结构和性质,并实现蛋白质的生成和设计。

主要贡献

1. 提出了ProtTeX框架,将蛋白质序列、结构和文本信息统一编码为离散的符号空间。

2. 通过联合训练LLM,实现了蛋白质结构的感知、处理和生成。

3. 在蛋白质功能预测、蛋白质结构生成和可控蛋白质设计方面取得了显著进展。

4. 首次展示了解码器仅有的LLM在蛋白质相关任务中的有效性。

5. 引入了链式思维(CoT)推理,增强了LLM在蛋白质相关任务中的推理能力。

6. 设计了基于知识引导和自然语言指令的蛋白质设计方法。

研究方法

1. 使用向量量化技术对蛋白质结构进行编码。

2. 将蛋白质序列编码为特殊标记,以便LLM处理。

3. 构建了包含蛋白质序列、结构和文本信息的混合模态QA问题,用于训练模型。

4. 采用链式思维(CoT)推理,将蛋白质结构和序列信息作为推理过程中的关键逻辑组件。

5. 使用不同的采样策略,如贪婪搜索、贝叶斯搜索和核采样,以适应不同的下游任务。

实验结果

实验结果表明,ProtTeX在蛋白质功能预测、蛋白质结构生成和可控蛋白质设计方面均取得了显著的性能提升。与现有模型相比,ProtTeX在蛋白质功能预测方面的准确率提高了两倍。此外,ProtTeX还展示了在蛋白质结构预测和结构采样方面的潜力。

未来工作

未来研究将集中于以下几个方面:探索更高效的采样策略,以进一步提高蛋白质结构预测和结构采样性能;将强化学习和推理时自我改进等LLM领域的先进技术应用于ProtTeX,以增强其性能;开发更全面的蛋白质数据集,以支持更广泛的蛋白质相关任务。