A Generalist Cross-Domain Molecular Learning Framework for Structure-Based Drug Discovery

作者: Yiheng Zhu, Mingyang Li, Junlong Liu, Kun Fu, Jiansheng Wu, Qiuyi Li, Mingze Yin, Jieping Ye, Jian Wu, Zheng Wang

发布时间: 2025-03-07

来源: arxiv

研究方向: 结构化药物发现(SBDD)和分子表示学习

主要内容

提出了一种名为BIT(生物分子交互转换器)的通用基础模型,用于结构化药物发现。BIT能够编码多种生物分子实体,包括小分子、蛋白质和蛋白质-配体复合物,以及各种数据格式,包括2D和3D结构。该模型通过混合域专家(MoDE)和混合结构专家(MoSE)方法,实现了深度融合和域特定编码,有效地捕捉了蛋白质-配体复合物中的细粒度分子相互作用。

主要贡献

1. 提出了一种名为BIT的通用基础模型,用于编码多种生物分子实体和数据格式。

2. 引入了统一预训练策略,以学习更精确的跨域分子表示。

3. 在蛋白质-配体结合和分子学习任务中实现了优异的性能。

4. 通过将BIT集成到虚拟筛选管道中,成功识别出具有显著抑制活性的化合物。

5. 进行了消融研究,以验证预训练中关键设计选择的有效性。

研究方法

1. Transformer-M模型

2. 混合域专家(MoDE)和混合结构专家(MoSE)方法

3. 跨域预训练

4. 统一的自监督去噪任务

5. 消融研究

6. 虚拟筛选管道

实验结果

BIT在蛋白质-配体结合亲和力预测、基于结构的虚拟筛选和分子属性预测等下游任务中均取得了优异的性能。此外,通过将BIT集成到虚拟筛选管道中,成功识别出两种具有显著抑制活性的化合物。

未来工作

未来将探索更广泛的生物分子数据集进行预训练,将BIT用于结构化分子生成任务,以及收集更多样化的蛋白质-配体复合物以支持更大模型的训练。