为了训练机器学习模型,对高质量标注数据的需求不断增长,这一趋势推动了弱监督与合成数据方法的广泛采用。这类方法使用自动化模型而非人工来完成数据标注。大语言模型(LLMs)的出现进一步加速了这一进程:其出色的零样本与小样本分类能力,使其能够在多种任务中充当有效的“合成标注器(synthetic annotators)”。 在实际应用中,由这些弱标注器生成的数据往往并不完美,但却能够支持训练出性能强大的模型。然而,从理论层面理解为何使用一个模型的输出作为监督信号来训练另一个模型仍能获得强性能,目前仍然十分有限,尤其是在标注模型在目标任务上本身表现并不理想的情况下。 在本论文中,我提出了一个用于弱监督学习的理论框架,相较于现有的众包标注(crowdsourcing)和噪声标签学习(learning with noisy labels)相关研究,该框架能够更好地刻画问题的关键要素。该理论框架给出了明确的结构性条件,用于解释在何种情况下、以及为何弱监督能够可靠地训练出强模型。 在这些理论结果的基础上,论文的第二部分进一步提出了改进模型从弱监督中学习的方法,并将这些方法应用于**标注数据极度稀缺(low-labeled-data)**的学习场景中。