深度神经网络学习丰富且结构化的潜在表征的能力,推动了计算机视觉及其他领域的显著进展。它们在图像分类、语义分割、自然语言处理和生成建模等任务中表现出色。其表达能力背后的一个关键因素是对大量数据的训练,使得这些模型能够捕捉复杂的模式并跨任务进行泛化。然而,当数据稀缺或难以获取时,对大规模数据集的依赖成为一个显著的限制。因此,出现了一个自然的问题:我们如何在数据丰富的领域中利用和调整学习到的表征,以适应那些无法实际收集大量配对数据的场景?有两种一般的解决方法:第一,分析和转换潜在特征空间,以使其与新目标对齐;第二,调整和操作输入空间,以更好地符合模型学习到的先验知识。 本论文探讨了这两种策略在表征学习和生成建模中的应用。关于第一种方法,通过将神经网络中的编码信息视为结构化的特征分布,我们可以使用数学基础技术来对齐这些分布。在本论文中,我们首先在神经风格迁移的背景下探索这一方法,提供了特征对齐的理论基础。与现有方法相比,我们的方法能够实现更一致的风格迁移,并具有理论上的保证。此外,我们还通过一个严格的框架来识别和评估学习到的表征,特别是在深度学习模型中的纹理偏差背景下,部分质疑现有解决方案的有效性。 第二种方法则侧重于调整数据表征本身,无论是通过转换输入域,还是通过修改模型架构。这在某些领域尤为重要,因为传统架构在缺乏规则或高效网格结构的情况下,往往难以应对。在本论文中,我们关注于针对3D和非欧几里得数据的生成建模。为此,我们提出了一种基于扩散的生成模型,利用四面体表示法来实现高质量的3D形状合成,同时保持几何一致性。与现有方法相比,这种方法在保持计算效率的同时,实现了前所未有的3D网格生成分辨率。最后,我们介绍了一种方法,将现有的扩散模型扩展到全景图像生成,同时保持其互联网规模的图像先验。我们的模型不仅提高了图像质量,还实现了比以往更可控的生成。 总之,这些贡献展示了如何通过理解和调整现有模型及表征,将深度学习扩展到新的输入和输出领域,利用适用于广泛计算机视觉任务的原理。