近年来,语言模型(Language Models, LMs)在广泛的自然语言处理(NLP)任务中取得了令人瞩目的性能。然而,它们的学习能力与人类仍存在显著差距。其中一个关键区别在于学习的效率与灵活性:人类能够仅凭少量标注样例快速掌握新概念,并在一生中不断习得新任务而不遗忘已掌握的知识。相比之下,LMs 通常需要大量数据才能实现有效的泛化,并且在适应具有不同数据分布的新任务时容易出现灾难性遗忘,即忘却先前学到的知识。

本文针对这一挑战,聚焦于类人学习的两个核心方面:(1)小样本学习(few-shot learning),即 LMs 能够从有限的标注数据中实现有效泛化;(2)持续(终身)学习(continual/lifelong learning),即 LMs 在学习一系列任务时能够保留并累积已有知识。在此目标下,我们提出了一系列新颖的框架与学习算法,使 LMs 更加接近类人的学习者,即能够更高效地从少量样例中学习,并在不断变化的数据分布下适应新任务而不发生灾难性遗忘。

首先,我们提出 元提示调优(Meta Prompt Tuning, MPT) 方法,系统探索了元学习如何提升提示调优中的跨任务小样本泛化能力,其核心思想是通过从相关任务中学习提示嵌入的初始化。通过大量实验与分析,我们验证了 MPT 在多种源/目标任务设定下的有效性与局限性。随后,我们研究了 持续序列生成(Lifelong Sequence Generation, LSG) 问题,即在一系列生成任务上持续训练模型,使其能够不断学习新模式的同时保持对旧任务知识的掌握。借鉴人类学习机制,我们提出 动态模块扩展与适应(Dynamic Module Expansion and Adaptation, DMEA) 框架,使模型能够基于任务间相关性动态调整结构,以获取新知识并选择最相关的历史任务来辅助新任务适应。

在此基础上,我们进一步探讨了一个更具挑战性且更贴近现实的场景:持续小样本学习(continual few-shot learning)。在该场景中,模型需要从有限样例中学习新任务,并适应不断演化的任务序列,较好地模拟了人类的增量学习过程。鉴于关系抽取是多种下游 NLP 任务的基础步骤,我们研究了 持续小样本关系学习(Continual Few-shot Relation Learning, CFRL),要求模型能够在一系列小样本任务中不断学习关系模式。我们通过 嵌入空间正则化与数据增强(Embedding space Regularization and Data Augmentation, ERDA) 来解决这一问题。最后,考虑到现有 LMs 在多任务处理上的强大能力,我们提出了一种新的学习范式——终身小样本语言学习(Lifelong Few-shot Language Learning, LFLL),并基于提示调优设计了统一框架 LFPT5,使模型能够在保留历史任务知识的同时,灵活适应新任务类型或新领域。

综上,本论文的工作提升了 LMs 在学习过程中的效率、灵活性与适应性,使其更适合于数据稀缺且不断变化的真实应用场景。通过融合小样本学习与持续学习的最新进展,本研究推动了更接近人类认知学习过程的语言模型的发展。最终,本文证明了 LMs 可以成为更健壮、多才且高效的学习者,从依赖大规模标注数据的传统范式迈向更类人的学习模式。

成为VIP会员查看完整内容
1

相关内容

博士论文是由攻读博士学位的研究生所撰写的学术论文。它要求作者在博士生导师的指导下,选择自己能够把握和驾驭的潜在的研究方向,开辟新的研究领域。由此可见,这就对作者提出了较高要求,它要求作者必须在本学科的专业领域具备大量的理论知识,并对所学专业的理论知识有相当深入的理解和思考,同时还要具有相当水平的独立科学研究能力,能够为在学科领域提出独创性的见解和有价值的科研成果。因而,较之学士论文、硕士论文,博士论文具有更高的学术价值,对学科的发展具有重要的推动作用。
【CMU博士论文】通信高效且差分隐私的优化方法
【NTU博士论文】让语言模型更接近人类学习者
专知会员服务
18+阅读 · 5月3日
【MIT博士论文】高效深度学习计算的模型加速
专知会员服务
32+阅读 · 2024年8月23日
论文浅尝 | 采用多层注意力机制的事件检测
开放知识图谱
24+阅读 · 2019年8月24日
国家自然科学基金
15+阅读 · 2017年12月31日
国家自然科学基金
23+阅读 · 2016年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
8+阅读 · 2015年12月31日
国家自然科学基金
28+阅读 · 2015年12月31日
国家自然科学基金
51+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
11+阅读 · 2012年12月31日
Arxiv
171+阅读 · 2023年4月20日
A Survey of Large Language Models
Arxiv
482+阅读 · 2023年3月31日
Arxiv
175+阅读 · 2023年3月24日
Arxiv
25+阅读 · 2023年3月17日
Arxiv
26+阅读 · 2019年3月5日
VIP会员
相关基金
国家自然科学基金
15+阅读 · 2017年12月31日
国家自然科学基金
23+阅读 · 2016年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
8+阅读 · 2015年12月31日
国家自然科学基金
28+阅读 · 2015年12月31日
国家自然科学基金
51+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
11+阅读 · 2012年12月31日
微信扫码咨询专知VIP会员