scDD: Latent Codes Based scRNA-seq Dataset Distillation with Foundation Model Knowledge
作者: Zhen Yu, Jianan Han, Yang Liu, Qingchao Chen
发布时间: 2025-03-07
来源: arxiv
研究方向: 单细胞RNA测序(scRNA-seq)数据分析和数据蒸馏
主要内容
该研究提出了一种名为scDD的基于潜在代码的scRNA-seq数据蒸馏框架,用于从原始数据集中提取和蒸馏基础模型知识,并将其转化为紧凑的潜在空间。此外,研究还提出了一种单步条件扩散生成器(SCDG),用于优化蒸馏质量和避免梯度衰减。通过在多个数据分析和任务中进行评估,验证了该方法的有效性。
主要贡献
1. 首次将数据蒸馏方法应用于scRNA-seq数据分析任务,并提出了基于潜在代码的scRNA-seq数据蒸馏框架scDD。
2. 提出了单步条件扩散生成器SCDG,提高了合成scRNA-seq数据集的类别特征,并通过单步梯度回传优化蒸馏质量。
3. 建立了一个全面的基准,用于评估scRNA-seq数据蒸馏在不同数据分析任务中的性能,实验结果表明scDD在基准测试中显著提高了蒸馏性能。
研究方法
1. 单细胞RNA测序(scRNA-seq)技术
2. 数据蒸馏
3. 基础模型知识
4. 潜在空间
5. 单步条件扩散生成器(SCDG)
6. 梯度回传
7. 信息蒸馏
8. 交叉验证
实验结果
在多个scRNA-seq数据集和数据分析任务中进行了实验,结果表明scDD在单细胞类型注释、疾病状态分类、发育阶段分析和解剖实体预测等任务中均优于现有方法,实现了7.61%的绝对改进和15.70%的相对改进。
未来工作
未来研究可以探索更复杂的潜在空间结构,以提高合成数据集的质量和多样性;同时,可以结合其他数据类型,如空间转录组数据,以进一步提高数据蒸馏的效果。