scDD: Latent Codes Based scRNA-seq Dataset Distillation with Foundation Model Knowledge

作者: Zhen Yu, Jianan Han, Yang Liu, Qingchao Chen

发布时间: 2025-03-07

来源: arxiv

研究方向: 单细胞RNA测序(scRNA-seq)数据分析和数据蒸馏

主要内容

该研究提出了一种名为scDD的基于潜在代码的scRNA-seq数据蒸馏框架,用于从原始数据集中提取和蒸馏基础模型知识,并将其转化为紧凑的潜在空间。此外,研究还提出了一种单步条件扩散生成器(SCDG),用于优化蒸馏质量和避免梯度衰减。通过在多个数据分析和任务中进行评估,验证了该方法的有效性。

主要贡献

1. 首次将数据蒸馏方法应用于scRNA-seq数据分析任务,并提出了基于潜在代码的scRNA-seq数据蒸馏框架scDD。

2. 提出了单步条件扩散生成器SCDG,提高了合成scRNA-seq数据集的类别特征,并通过单步梯度回传优化蒸馏质量。

3. 建立了一个全面的基准,用于评估scRNA-seq数据蒸馏在不同数据分析任务中的性能,实验结果表明scDD在基准测试中显著提高了蒸馏性能。

研究方法

1. 单细胞RNA测序(scRNA-seq)技术

2. 数据蒸馏

3. 基础模型知识

4. 潜在空间

5. 单步条件扩散生成器(SCDG)

6. 梯度回传

7. 信息蒸馏

8. 交叉验证

实验结果

在多个scRNA-seq数据集和数据分析任务中进行了实验,结果表明scDD在单细胞类型注释、疾病状态分类、发育阶段分析和解剖实体预测等任务中均优于现有方法,实现了7.61%的绝对改进和15.70%的相对改进。

未来工作

未来研究可以探索更复杂的潜在空间结构,以提高合成数据集的质量和多样性;同时,可以结合其他数据类型,如空间转录组数据,以进一步提高数据蒸馏的效果。