HyperAIHyperAI

Command Palette

Search for a command to run...

基于二元扩散的表格数据生成

Vitaliy Kinakh Slava Voloshynovskiy

摘要

生成合成表格数据在机器学习中具有重要意义,尤其是在真实数据稀缺或敏感的情况下。传统的生成模型在处理表格数据时往往面临诸多挑战,这主要源于表格数据特有的复杂性,例如混合数据类型和多样化的分布特征,通常需要复杂的预处理步骤或依赖大规模预训练模型。本文提出一种新颖的无损二值化转换方法,可将任意表格数据转化为固定长度的二值表示,并进一步设计了一种专为二值数据量身定制的新型生成模型——Binary Diffusion。该模型利用异或(XOR)运算的简洁性实现噪声的添加与去除,并采用二值交叉熵损失函数进行训练。所提方法无需进行繁琐的预处理、复杂的噪声参数调优,也无需在大规模数据集上进行预训练。我们在多个主流表格数据集上对模型进行了评估,结果表明,Binary Diffusion在Travel、Adult Income和Diabetes等数据集上的表现优于现有最先进模型,同时模型体积显著更小。


用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码
开箱即用的 GPU
最优定价

HyperAI Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供