Synthetic tabular data generation has gained significant attention for its potential in data augmentation and privacy-preserving data sharing. While recent methods like diffusion and auto-regressive models (i.e., transformer) have advanced the field, generative adversarial networks (GANs) remain highly competitive due to their training efficiency and strong data generation capabilities. In this paper, we introduce Tabular Auto-Encoder Generative Adversarial Network (TAEGAN), a novel GAN-based framework that leverages a masked auto-encoder as the generator. TAEGAN is the first to incorporate self-supervised warmup training of generator into tabular GANs. It enhances GAN stability and exposes the generator to richer information beyond the discriminator's feedback. Additionally, we propose a novel sampling method tailored for imbalanced or skewed data and an improved loss function to better capture data distribution and correlations. We evaluate TAEGAN against seven state-of-the-art synthetic tabular data generation algorithms. Results from eight datasets show that TAEGAN outperforms all baselines on five datasets, achieving a 27% overall utility boost over the best-performing baseline while maintaining a model size less than 5% of the best-performing baseline model. Code is available at: https://github.com/BetterdataLabs/taegan.


翻译:合成表格数据生成因其在数据增强和隐私保护数据共享方面的潜力而受到广泛关注。尽管扩散模型和自回归模型(如Transformer)等近期方法推动了该领域的发展,但生成对抗网络(GANs)凭借其训练效率和强大的数据生成能力,仍保持高度竞争力。本文提出了表格自编码器生成对抗网络(TAEGAN),这是一种新颖的基于GAN的框架,利用掩码自编码器作为生成器。TAEGAN首次将生成器的自监督预热训练引入表格GAN中,增强了GAN的稳定性,并使生成器能够接触到判别器反馈之外的更丰富信息。此外,我们提出了一种针对不平衡或偏斜数据定制的新型采样方法,以及一种改进的损失函数,以更好地捕捉数据分布和相关性。我们将TAEGAN与七种最先进的合成表格数据生成算法进行了比较。在八个数据集上的实验结果表明,TAEGAN在五个数据集上优于所有基线方法,总体效用比性能最佳的基线提升了27%,同时模型大小不到最佳基线模型的5%。代码可在以下网址获取:https://github.com/BetterdataLabs/taegan。

0
下载
关闭预览

相关内容

【NeurIPS2024】TableRAG:基于语言模型的百万标记表格理解
专知会员服务
37+阅读 · 2024年10月8日
KnowledGPT:基于知识库的检索和存储访问增强大型语言模型
【ICML2023】SEGA:结构熵引导的图对比学习锚视图
专知会员服务
22+阅读 · 2023年5月10日
论文浅尝 | GEOM-GCN: Geometric Graph Convolutional Networks
开放知识图谱
14+阅读 · 2020年4月8日
【NeurIPS2019】图变换网络:Graph Transformer Network
Single-Shot Object Detection with Enriched Semantics
统计学习与视觉计算组
14+阅读 · 2018年8月29日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
VIP会员
相关资讯
论文浅尝 | GEOM-GCN: Geometric Graph Convolutional Networks
开放知识图谱
14+阅读 · 2020年4月8日
【NeurIPS2019】图变换网络:Graph Transformer Network
Single-Shot Object Detection with Enriched Semantics
统计学习与视觉计算组
14+阅读 · 2018年8月29日
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员