Dataset Distillation with Neural Characteristic Function: A Minmax Perspective

作者: Shaobo Wang, Yicun Yang, Zhiyuan Liu, Chenghao Sun, Xuming Hu, Conghui He, Linfeng Zhang

发布时间: 2025-03-03

来源: arxiv

研究方向: 数据蒸馏与深度学习

主要内容

本文提出了一种名为NCFM(Neural Characteristic Function Matching)的数据蒸馏方法,旨在通过神经网络特征匹配,将大型真实数据集压缩成小型合成数据集,同时保持数据集的分布和特征。该方法通过改进的分布匹配和特征提取策略,提高了数据蒸馏的效率和准确性。

主要贡献

1. 将数据蒸馏问题重新定义为minmax优化问题,通过采样网络最大化分布差异,同时优化合成数据以最小化差异。

2. 引入了NCFM,该算法在复平面上对真实和合成数据的神经网络特征进行相位和幅度匹配,实现了合成数据在真实性和多样性之间的平衡。

3. 在多个基准数据集上进行了实验,证明了NCFM在低分辨率和高分辨率数据集上均优于现有方法,在ImageSquawk上提高了20.5%的准确率。

4. NCFM在计算资源方面表现出前所未有的效率,与现有方法相比,GPU内存使用量减少了300倍以上,处理速度提高了20倍。

5. 实现了CIFAR-100在单个NVIDIA 2080 Ti GPU上的无损压缩,内存使用量仅为2.3 GB。

研究方法

1. minmax优化

2. Neural Characteristic Function Discrepancy (NCFD)作为分布差异度量

3. 神经网络特征提取和匹配

4. 采样网络优化

5. 复平面上相位和幅度的匹配

实验结果

NCFM在多个数据集上取得了显著的性能提升,包括CIFAR-10、CIFAR-100、Tiny ImageNet和ImageNet子集。与现有方法相比,NCFM在低分辨率和高分辨率数据集上都表现出更好的性能,同时显著降低了计算资源需求。

未来工作

未来工作可以进一步探索以下方向:1. 将NCFM应用于更广泛的数据类型和任务;2. 优化NCFM的计算效率,使其适用于更大规模的数据集;3. 探索NCFM在数据增强和模型压缩等其他领域的应用。