为了训练机器学习模型,对高质量标注数据的需求不断增长,这一趋势推动了弱监督合成数据方法的广泛采用。这类方法使用自动化模型而非人工来完成数据标注。大语言模型(LLMs)的出现进一步加速了这一进程:其出色的零样本与小样本分类能力,使其能够在多种任务中充当有效的“合成标注器(synthetic annotators)”。 在实际应用中,由这些弱标注器生成的数据往往并不完美,但却能够支持训练出性能强大的模型。然而,从理论层面理解为何使用一个模型的输出作为监督信号来训练另一个模型仍能获得强性能,目前仍然十分有限,尤其是在标注模型在目标任务上本身表现并不理想的情况下。 在本论文中,我提出了一个用于弱监督学习的理论框架,相较于现有的众包标注(crowdsourcing)噪声标签学习(learning with noisy labels)相关研究,该框架能够更好地刻画问题的关键要素。该理论框架给出了明确的结构性条件,用于解释在何种情况下、以及为何弱监督能够可靠地训练出强模型。 在这些理论结果的基础上,论文的第二部分进一步提出了改进模型从弱监督中学习的方法,并将这些方法应用于**标注数据极度稀缺(low-labeled-data)**的学习场景中。

成为VIP会员查看完整内容
1

相关内容

博士论文是由攻读博士学位的研究生所撰写的学术论文。它要求作者在博士生导师的指导下,选择自己能够把握和驾驭的潜在的研究方向,开辟新的研究领域。由此可见,这就对作者提出了较高要求,它要求作者必须在本学科的专业领域具备大量的理论知识,并对所学专业的理论知识有相当深入的理解和思考,同时还要具有相当水平的独立科学研究能力,能够为在学科领域提出独创性的见解和有价值的科研成果。因而,较之学士论文、硕士论文,博士论文具有更高的学术价值,对学科的发展具有重要的推动作用。
微信扫码咨询专知VIP会员