Chemical knowledge-informed framework for privacy-aware retrosynthesis learning

作者: Guikun Chen, Xu Zhang, Yi Yang, Wenguan Wang

发布时间: 2025-02-27

来源: arxiv

研究方向: 化学知识驱动的隐私保护反合成学习

主要内容

本文研究了在化学知识指导下，如何通过隐私保护的方式学习反合成模型。针对传统机器学习反合成训练模式存在的隐私风险，提出了一种名为CKIF的化学知识驱动的框架，实现多个化学组织之间的分布式训练，同时保护私有反应数据的机密性。

1. 提出了一种名为CKIF的化学知识驱动的框架，通过化学知识指导模型聚合，提高反合成预测的准确性。

2. CKIF在多个反应数据集上优于现有的基线方法，如FedAvg，证明了其在隐私保护反合成学习中的可行性和优越性。

3. CKIF能够处理数据异构性问题，通过化学知识信息加权策略，为每个化学实体训练个性化模型。

4. CKIF具有可扩展性，随着参与者的增加，性能进一步提升。

1. 分布式机器学习

2. 化学知识信息加权策略

3. 分子指纹

4. MACCS keys

5. Transformer模型

CKIF在多个反应数据集上优于现有的基线方法，如Locally Trained、Centrally Trained和FedAvg。实验结果表明，CKIF在提高反合成预测准确性方面具有显著优势，同时保证了数据隐私。

未来工作将探索以下方面：1）针对不同化学实体的个性化分子指纹或测量方法；2）评估合成路线的实用性和可行性；3）研究隐私泄漏和数据中毒的防御机制。