【MIT博士论文】通过强化学习进行生成式发现

发现新知识对于技术进步至关重要，这一过程也反映了人类和动物学习新技能的方式——通常通过试错完成。例如，远古人类通过尝试不同的方法发现了火；儿童通过不断尝试和失败学会了行走和使用工具。在化学领域，科学家则通过测试不同的组成成分来寻找新的催化剂。但人类究竟是如何通过试错不断改进现有方案的（比如学会更高效的行走方式或合成新型化合物）？我们能否设计出模仿甚至超越人类发现能力的计算模型？这样的计算模型可以显著加速科学与工程领域的进步，因为它们可以自动化或辅助人类科学家与工程师的工作，更高效地发现新知识（例如新型化合物、优化机器人控制器设计等）。强化学习（Reinforcement Learning, RL）非常适合用于发现类任务，因为它使机器能够通过试错方式进行学习。我的研究突破了当前强化学习算法的以下主要限制，从而提升了其在发现任务中的潜力： 缓解奖励塑造的偏差。 强化学习依赖于试错经验中的奖励信号，但这些信号往往是稀疏的，只有在找到理想解时才会出现，否则为零。因此，大多数尝试几乎无法获得有效反馈。一个常见的策略是通过提供额外提示（即奖励塑造）来在稀疏奖励的情形下提升强化学习的表现。然而，如果这些提示不准确，就可能反而引导算法走向比没有提示更差的解。我提出了一种新的强化学习框架，可以与任何标准强化学习算法结合，确保即使使用提示训练，也能找到更优解，而非导致性能下降。 使用次优数据进行学习。 强化学习不仅可以通过与环境的在线交互来学习，还可以利用已记录的经验数据集进行训练。对于材料发现或机器人学习等代价高昂或耗时的任务，离线强化学习是更理想的选择，因为它利用的是现有数据而不需要额外的交互。然而，这类数据集往往主要包含低奖励的解，这限制了离线强化学习算法发现优于数据集中已有解的能力（我们在后文将展示这一点）。我提出了样本重加权策略，对数据集进行加权，使当前离线强化学习算法在训练过程中能发现远优于数据集中已有解的解决方案，即使数据集中主要是低奖励的样本。 通过多样性提升安全性。 标准强化学习算法通常旨在找到单一的“最优”解。然而，在许多发现类任务中——如药物开发——生成多个具有不同性质的高奖励解（即多样性）比只关注一个解更有价值。我在一个新兴的发现类任务中研究了这个问题：对大型语言模型（LLMs）进行红队测试。在红队测试中，我们需要构造出多样的提示，触发目标语言模型生成不良输出。当前利用强化学习训练一个语言模型去攻击另一个的做法，往往在生成提示的多样性上表现不足，最终趋向于收敛于少数几个稳定能触发不良输出的提示。我提出对智能体进行奖励，最大化其生成提示的多样性，这不仅提升了提示在触发目标语言模型不良输出方面的成功率，也提升了整体的探索质量。 https://dspace.mit.edu/handle/1721.1/159135