Learned cardinality estimation requires accurate model designs to capture the local characteristics of probability distributions. However, existing models may fail to accurately capture complex, multilateral dependencies between attributes. Diffusion models, meanwhile, can succeed in estimating image distributions with thousands of dimensions, making them promising candidates, but their heavy weight and high latency prohibit effective implementation. We seek to make diffusion models more lightweight by introducing Accelerated Diffusion Cardest (ADC), the first "downsized" diffusion model framework for efficient, high-precision cardinality estimation. ADC utilizes a hybrid architecture that integrates a Gaussian Mixture-Bayesnet selectivity estimator with a score-based density estimator to perform precise Monte Carlo integration. Addressing the issue of prohibitive inference latencies common in large generative models, we provide theoretical advancements concerning the asymptotic behavior of score functions as time $t$ approaches zero and convergence rate estimates as $t$ increases, enabling the adaptation of score-based diffusion models to the moderate dimensionalities and stringent latency requirements of database systems. Through experiments conducted against five learned estimators, including the state-of-the-art Naru, we demonstrate that ADC offer superior robustness when handling datasets with multilateral dependencies, which cannot be effectively summarized using pairwise or triple-wise correlations. In fact, ADC is 10 times more accurate than Naru on such datasets. Additionally, ADC achieves competitive accuracy comparable to Naru across all tested datasets while maintaining latency half that of Naru's and requiring minimal storage (<350KB) on most datasets.


翻译:学习型基数估计需要精确的模型设计以捕捉概率分布的局部特征。然而,现有模型可能无法准确捕捉属性间复杂、多边的依赖关系。与此同时,扩散模型在估计数千维的图像分布方面已取得成功,使其成为有潜力的候选方案,但其庞大的参数量和高延迟阻碍了有效部署。本研究旨在通过引入加速扩散基数估计器(ADC)——首个面向高效、高精度基数估计的“轻量化”扩散模型框架,使扩散模型更加轻便。ADC采用混合架构,将高斯混合-贝叶斯网络选择率估计器与基于分数的密度估计器相结合,以执行精确的蒙特卡洛积分。针对大型生成模型中普遍存在的过高推理延迟问题,我们提出了关于分数函数在时间$t$趋近于零时的渐近行为及$t$增大时收敛速率估计的理论进展,使得基于分数的扩散模型能够适应数据库系统的中等维度与严格延迟要求。通过对包括最先进模型Naru在内的五种学习型估计器进行实验,我们证明ADC在处理具有多边依赖关系的数据集时展现出卓越的鲁棒性,这类依赖无法通过成对或三阶相关性有效表征。事实上,在此类数据集上ADC的准确度比Naru高出10倍。此外,在所有测试数据集上,ADC达到了与Naru相当的竞争性准确度,同时保持仅为其一半的延迟,并在多数数据集上仅需极小的存储空间(<350KB)。

0
下载
关闭预览

相关内容

【NeurIPS2024】几何轨迹扩散模型
专知会员服务
24+阅读 · 2024年10月20日
【ICML2023】SEGA:结构熵引导的图对比学习锚视图
专知会员服务
22+阅读 · 2023年5月10日
【CVPR 2020 Oral】小样本类增量学习
专知
20+阅读 · 2020年6月26日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
VIP会员
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员