BAnG: Bidirectional Anchored Generation for Conditional RNA Design

作者: Roman Klypa, Alberto Bietti, Sergei Grudinin

发布时间: 2025-03-03

来源: arxiv

研究方向: 生物信息学,RNA设计,蛋白质-RNA相互作用

主要内容

本文提出了一种名为RNA-BAnG的深度学习模型,用于生成与特定蛋白质相互作用的RNA序列。该模型结合了双向锚定生成(BAnG)方法和Transformer架构,旨在提高RNA序列生成的效率和准确性。

主要贡献

1. 提出了一种新的双向生成方法BAnG,并基于Transformer架构构建了RNA-BAnG模型。

2. 在合成任务和生物序列数据上验证了BAnG方法的有效性。

3. 在实验性RNA-蛋白质相互作用数据上评估了RNA-BAnG模型,结果表明其优于现有方法。

4. RNA-BAnG模型可以生成具有多样性和新颖性的RNA序列,提高了实验RNA设计的可能性。

研究方法

1. 深度学习模型:基于Transformer架构,结合了自注意力、交叉注意力和几何注意力机制。

2. 蛋白质结构预测:利用AlphaFold2进行蛋白质结构预测。

3. 条件生成:通过蛋白质序列和结构信息进行条件RNA序列生成。

4. 合成任务:使用包含特定子序列的合成数据来评估BAnG方法的有效性。

5. 实验数据:使用来自PDB和RNAcentral的蛋白质-核酸相互作用数据来训练和评估RNA-BAnG模型。

实验结果

实验结果表明,RNA-BAnG模型在合成任务和实验数据上都优于现有方法。与随机生成相比,RNA-BAnG生成的序列具有更高的亲和力和多样性,且具有新颖性。

未来工作

未来的工作可以集中在以下方面:集成实验反馈以进一步优化模型,优化模型架构以提高性能,提高模型的可操作性,以及进行实验验证以评估模型在实际应用中的效果。