本文提出了 Pixel-Perfect Depth,一种基于像素空间扩散生成(pixel-space diffusion generation)的单目深度估计模型,能够从预测的深度图中生成高质量、**无飞点(flying pixels)**的点云。当前的生成式深度估计模型通常在

Stable Diffusion 基础上进行微调,尽管取得了显著性能,但它们需要借助 变分自编码器(VAE) 将深度图压缩到潜空间中,这一过程不可避免地会在边缘与细节处引入飞点伪影。 为解决这一问题,我们的模型直接在像素空间中执行扩散生成,从根本上避免了由 VAE 压缩引起的伪影。针对像素空间生成所带来的高计算复杂度,我们提出了两项创新设计:

语义提示扩散 Transformer(Semantics-Prompted Diffusion Transformers, SP-DiT):将视觉基础模型(Vision Foundation Models)提取的语义表征融入 DiT 架构,用于引导扩散过程,从而在提升细粒度视觉细节的同时保持全局语义一致性;

级联式 DiT 设计(Cascade DiT Design):通过逐步增加 token 数量的方式,进一步提高生成的效率与精度。

在五个主流基准测试中,Pixel-Perfect Depth 在所有已发表的生成式模型中取得了最优性能,并在**边缘感知点云评估(edge-aware point cloud evaluation)**上显著超越其他方法。

成为VIP会员查看完整内容
0

相关内容

【CVPR2025】在去噪扩散模型中优化最短路径
专知会员服务
16+阅读 · 3月10日
【AAAI2025】用于高保真3D重建的多视图条件扩散模型
专知会员服务
19+阅读 · 2024年12月12日
【TPAMI2024】增强视频-语言表示的结构时空对齐方法
专知会员服务
24+阅读 · 2024年6月30日
【NeurIPS2023】朝向自解释的图级异常检测
专知会员服务
30+阅读 · 2023年10月26日
【AAAI2023】用于图对比学习的谱特征增强
专知
20+阅读 · 2022年12月11日
【CVPR2021】跨模态检索的概率嵌入
专知
17+阅读 · 2021年3月2日
【KDD2020】图神经网络生成式预训练
专知
22+阅读 · 2020年7月3日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
8+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
Arxiv
171+阅读 · 2023年4月20日
A Survey of Large Language Models
Arxiv
484+阅读 · 2023年3月31日
VIP会员
相关VIP内容
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
8+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
微信扫码咨询专知VIP会员