UniGenX: Unified Generation of Sequence and Structure with Autoregressive Diffusion
作者: Gongbo Zhang, Yanting Li, Renqian Luo, Pipi Hu, Zeru Zhao, Lingbo Li, Guoqing Liu, Zun Wang, Ran Bi, Kaiyuan Gao, Liya Guo, Yu Xie, Chang Liu, Jia Zhang, Tian Xie, Robert Pinsler, Claudio Zeni, Ziheng Lu, Yingce Xia, Marwin Segler, Maik Riechert, Li Yuan, Lei Chen, Haiguang Liu, Tao Qin
发布时间: 2025-03-11
来源: arxiv
研究方向: 科学数据生成与建模
主要内容
UniGenX是一种结合自回归模型和条件扩散模型的统一生成框架,旨在解决科学数据中序列和结构信息生成的挑战。该框架通过结合自回归模型的灵活性和扩散模型的精度,实现了对科学数据的准确和灵活生成。
主要贡献
1. 提出了一种结合自回归和扩散模型的统一生成框架UniGenX,提高了科学数据生成的精度和灵活性。
2. 通过序列化方法将符号数据和数值数据统一表示,为不同科学领域和任务提供了一种通用的数据表示方式。
3. 通过“词到词,数到数”的预测方法,有效地处理了数值数据的精度问题。
4. 在材料和小分子生成任务中取得了显著的性能提升,实现了晶体结构预测和小分子结构预测的新突破。
5. 证明了UniGenX在统一训练和自然语言提示生成方面的能力,避免了显式等变/不变性诱导偏差,依赖于数据增强来学习这些属性,从而保留了变换器的可扩展性。
研究方法
1. 自回归模型(AR)
2. 条件扩散模型
3. 序列化方法
4. 词到词,数到数的预测方法
5. 数据增强
实验结果
UniGenX在材料生成任务(如MP-20、Carbon-24和MPTS-52)上显著优于现有的扩散/流匹配模型,在大多数目标上超过了NatureLM,并在GEOM-QM9预测、材料从头设计和小分子条件生成等任务上实现了新的最先进结果。UniGenX在统一训练和自然语言提示生成方面表现出色,避免了显式等变/不变性诱导偏差,依赖于数据增强来学习这些属性,从而保留了变换器的可扩展性。
未来工作
将UniGenX扩展到其他科学数据类型(如蛋白质、DNA)和任务(如能量/力预测),以实现科学生成的统一基础模型,并可能将其与通用领域模型集成。