Synthesizing Tabular Data Using Selectivity Enhanced Generative Adversarial Networks

作者: Youran Zhou, Jianzhong Qi

发布时间: 2025-03-03

来源: arxiv

研究方向: 数据合成与隐私保护

主要内容

该研究针对电子商务平台在处理大量交易数据时面临的挑战,提出了一种基于生成对抗网络(GAN)的表格数据合成方法,以解决数据短缺、隐私保护和机器学习实用性问题。该方法通过引入查询选择性约束,提高了合成数据的真实性和准确性。

主要贡献

1. 设计了一种新的表格生成GAN模型,通过添加预训练的深度神经网络组件来建模查询选择性约束。

2. 实现了基于选择性约束的表格数据生成,提高了选择性估计的准确性。

3. 在五个真实数据集上进行了实验,结果表明所生成的合成数据与真实数据相似,提高了选择性估计的准确性,并提升了机器学习实用性。

研究方法

1. 生成对抗网络(GAN)

2. 预训练深度神经网络

3. 查询选择性约束

4. 数据预处理

5. 机器学习评估

实验结果

实验结果表明,所提出的模型在选择性估计和机器学习实用性方面都优于现有的GAN模型和VAE模型。在五个真实数据集上,合成数据的选择性估计准确性提高了20%,机器学习实用性提高了6%。

未来工作

未来工作将包括:1. 考虑更多查询操作,如投影和连接;2. 改进选择性组件,提高估计精度;3. 满足工业需求,如动态数据更新;4. 在更多GAN变体上进行实验;5. 优化超参数设置。