创建规模日益庞大的数据集在深度学习的实际成功中起到了重要作用。然而,在许多现实场景中,高质量数据可能非常稀缺,导致深度学习的直接应用难以达到预期效果。大量先前研究试图解决这一问题,以提高深度学习的数据效率。这类方法通常依赖于以下一种或多种高级策略:通过调整模型架构或训练方式更有效地利用现有数据;主动控制数据生成过程,以优先获取更有价值的数据;或利用其他间接相关任务的数据。在理想情况下,这些方法可以显著提升深度学习在小数据环境下的表现。但即便如此,深度学习中的数据效率问题仍远未解决,许多挑战依然存在。 本论文提出并研究了四种不同的数据高效深度学习方法,通过质疑当前主流方法中的一些默认假设,推动了该领域的最新进展。 首先,我们提出了一种名为**非参数 Transformer(Non-Parametric Transformers, NPTs)的数据高效深度学习架构,它将整个数据集作为模型输入。这一做法突破了传统深度学习“单样本输入”的常规,使得 NPT 能够通过直接推理样本之间的交互关系来进行预测。NPT 在小规模结构化数据集(tabular datasets)上表现出色,而这是深度学习方法此前常常表现不佳的领域。 其次,我们将数据效率的关注点拓展至模型评估领域。尽管主动学习(active learning)方法可以减少训练过程中所需的标签数量,但评估阶段的标注成本却常被忽视,缺乏合理解释。为此,我们提出了两种不同的方法,通过仅主动标注具有信息量的样本子集,构建出对模型性能的特化估计,从而实现标签高效的模型评估。 第三,我们研究了上下文学习(In-Context Learning, ICL)**在大语言模型中学习标签关系的能力。尽管已有大量文献围绕 ICL 是否真正利用标签信息展开讨论,我们的系统研究为这一问题提供了新的视角,揭示了 ICL 在标签学习方面的潜力与局限性。