Broadening Discovery through Structural Models: Multimodal Combination of Local and Structural Properties for Predicting Chemical Features

作者: Nikolai Rekut, Alexey Orlov, Klea Ziu, Elizaveta Starykh, Martin Takac, Aleksandr Beznosikov

发布时间: 2025-02-27

来源: arxiv

研究方向: 化学信息学、分子表征学习、机器学习在化学中的应用

主要内容

该研究旨在开发一种基于指纹的特定语言模型,并将其与图模型相结合,以提高预测化学特性的准确性。研究主要关注SMILES格式的局限性,并探索化学指纹在模型训练中的应用。

主要贡献

1. 提出了一种新的方法,将图表示与基于指纹的语言模型相结合,以解决SMILES格式的局限性。

2. 开发了一个基于RoBERTa的语言模型,该模型专门针对指纹进行训练。

3. 引入了一种双模态架构,将语言模型与图模型(GIN、GCN和Graphormer)相结合。

4. 在QSAR和NMR光谱预测等任务上实现了显著的预测性能提升。

研究方法

1. RoBERTa语言模型

2. Graph Isomorphism Networks (GIN)

3. Graph Convolutional Networks (GCN)

4. Graphormer

5. 基于指纹的文本编码

6. 图表示学习

7. 对比学习

8. 多模态模型集成

实验结果

在QSAR和NMR光谱预测等任务上,与传统的策略相比,该研究提出的方法实现了显著的预测性能提升。在QSAR任务中,BERT+Graphormer模型在多个数据集上取得了最佳性能。在NMR光谱预测任务中,该研究提出的方法也表现出良好的性能。

未来工作

未来工作将包括探索更复杂的化学任务,如共结晶预测、NMR光谱预测和其他物理化学任务。此外,还将对模型架构进行改进,以进一步提高其性能。