科学创意生成是科学发现的核心,它通过解决悬而未决的难题或提出新颖假说来解释未知现象,不断推动人类进步。与标准科学推理或普通创意生成不同,科学领域的创意生成是一项多目标且开放式的任务,其成果的新颖性与实证稳健性同等重要。大型语言模型近期展现出作为科学创意生成工具的潜力——它们能产出连贯且事实准确的输出,表现出令人惊讶的直觉灵感和合格推理能力,但其创造能力仍存在不稳定且尚未被充分认知的局限性。 本文对驱动LLM进行科学创意生成的方法进行了系统性梳理,重点探讨不同方法如何平衡创造力与科学严谨性。我们将现有方法归纳为五大互补类型:外部知识增强、基于提示词的分布导向、推理时参数调控、多智能体协同以及参数级自适应。为解析其贡献,我们引入两大互补理论框架:运用博登的创造力分类法(组合性、探索性与变革性创造力)来界定各类方法预期生成创意的层级;借助罗兹的4P框架(创作者、创作过程、创作环境与创作成果)来定位不同方法关注的创造力维度。通过将技术进展与创造力理论相对照,本综述明晰了该领域的发展现状,并为实现可靠、系统且具变革性的LLM科学发现应用指明了关键方向。
1 引言
科学发现始终屹立于人类进步的前沿,从揭示物理定律到研发变革性药物皆然。这一过程的核心在于科学创意生成——即提出能够指导后续实验与理论构建的新颖且合理的假说的能力。与常规问题求解不同,科学构思必须兼顾两个苛刻的标准:新颖性(驱动真正的创新)与价值性(确保生成的创意正确、可行且有价值)(Boden, 2004)。 大型语言模型的最新进展为增强这一过程提供了前所未有的机遇。在价值性方面,推理与事实性相关的研究提升了模型输出的可靠性。诸如思维链提示、自洽解码、思维树等推理时缩放方法,以及前沿的RL后训练模型等,均已证明更多计算资源能够解锁更深层次的推理能力。检索增强生成、智能体工具调用等补充策略,则通过整合外部知识源和事实核查流程来确保事实依据。总体而言,这些进展为提升科学构思中的价值性与正确性奠定了基础。 在创造力方面,基于对齐的方法推动LLM走向更高的原创性。然而,此类方法通常在事实复杂性有限的领域表现出色,却难以推广到要求创造力必须与实证稳健性紧密耦合的科学领域。
推理能力与生成创造力的融合,凸显了科学创意生成之所以独具挑战性:它本质上是一个多目标难题,新颖性与价值性必须共存。这种双重需求呼吁我们对创造力本身有更深入的理解。为了夯实我们的分析,我们转向认知科学,该领域为研究和分类创造力提供了坚实的框架。我们希望借助这些文献的见解,有助于揭示当前基于LLM的科学创意生成方法捕捉了创造力的哪些认知维度,而哪些维度仍有待探索。 Rhodes开创性的4P框架将创造力概念化为四个维度之间的相互作用:创作者(生成创意的个体或系统)、过程(涉及的认知或算法机制)、环境(周围环境与情境)和成果(可评估的产出)。尽管四者共同构成创造力,后续研究强调成果通常是依赖性的、可衡量的结果,而创作者、过程和环境则是塑造其出现的主要来源(Kozbelt et al., 2010; Gruszka & Tang, 2017)。
作为该视角的补充,Boden区分了创造性产出的三个层次:组合性创造力(通过对已知概念的新颖重组产生新想法)、探索性创造力(在结构化空间中进行搜索以发现新颖但在概念上连贯的可能性)以及变革性创造力(重塑或扩展概念空间本身,实现范式转换的发现)。 基于这些理论基础,本综述——不同于主要强调工程流水线、智能体架构或任务覆盖范围的现有工作——审视了LLM驱动的科学发现方法如何管理科学价值性与新颖性这双重目标。我们提出,可以通过产出创造力层次(组合性、探索性、变革性)和创造力来源(创作者、过程、环境)的视角来系统理解这些目标。我们希望认知科学的见解能帮助识别哪些维度已被涵盖,哪些尚待探索。为使此分析具体化,如图2所示,我们将现有方法归纳为五个互补的类别: 1. 知识与检索增强:这类核心工作通过整合经过筛选的、多样化的、关联性的领域知识来增强LLM,弥补静态预训练的局限性。将相关文献或事实资源纳入模型上下文,不仅使输出扎根于既定知识并减少幻觉,也充当了来自环境的创造力注入源。在Rhodes的4P框架中,这反映了环境维度,在正确性与源自已知元素重组的新颖性之间取得平衡。此类方法最有可能促进组合性创造力。我们将在第2节详述这些方法。 1. 基于提示词的分布导向:另一类方法通过输入操作引导LLM产生更具原创性的想法。此类方法主要根植于环境维度,通常产生组合性创造力,但当提示词引导探索时,也能扩展到探索性形式。第3节展示了细节及更多示例。 1. 搜索与采样扩展:推理时缩放通过迭代优化或分支探索,使LLM的能力超越了单次解码,实现了动态探索且无需额外模型训练。通过系统性地扩大创意搜索空间并超越显而易见的假说,这些方法增加了探索性创造力出现的几率,尽管正确性依赖于强大的评估信号。该方法族最贴近过程维度。我们在第4节进一步讨论。 1. 多智能体与审议系统:超越单智能体推理,多智能体系统模拟了科研团队的协作动力学。此类设置促进了超越个体极限的推理,常常涌现出跨学科边界或非常规的想法。这些动力学特性促进了批判性思维、类比推理和跳出框架的问题解决——这些正是变革性创造力的标志。这项工作凸显了过程维度,在第5节进一步讨论。 1. 参数自适应与学习:微调、强化学习和混合对齐方法直接修改模型参数,将新策略和知识内化。作用于创作者维度,随着模型将推理模式内化,接近更高级别创造性成果的可能性可能会增加。我们在第6节回归这些方法。
除方法分类外,本综述还审视了评估实践如何塑造和制约科学创造力。我们特别分析了当前评估生成创意的指标与方法格局,强调了其中存在的主观性、可靠性与可比性等持续挑战。这些问题自然映射到Rhodes的4P框架中的成果维度,反映了科学想法产生后如何被评判。我们在第7节详细讨论评估指标。 最后,我们在第8节概述了开放方向。当前方法大多仍停留在组合性或探索性层面,变革性创造力依然难以企及。从"过程"和"环境"视角已取得诸多进展,但"创作者"和"成果"维度仍未得到充分探索。例如,从创意层面搜索转向智能体层面搜索,可能释放更丰富的创作者层级创造力。在更深层次上,自回归训练范式或基于注意力的LLM架构本身可能对LLM在科学中的创造潜力构成了结构性限制。在成果方面,缺乏评估生成科学想法的标准化指标与基准,使得创造力评估模糊且主观。解决这些差距可能使我们更接近实现LLM作为科学发现真正伙伴的愿景。