大型语言模型(LLMs)正日益应用于科学研究,但现行科学基准测试往往考察脱离语境的知识,忽略了推动科学发现所需的迭代推理、假设生成与观察解释。我们引入了一种基于场景的基准测试,用于评估LLMs在生物学、化学、材料学和物理学领域的能力。该测试由领域专家定义具有实际价值的研究项目,并将其分解为模块化的研究场景,从中抽样产生经审核的问题。该框架从两个层面评估模型:(一)针对特定场景问题的题目级准确度;(二)项目级表现,要求模型提出可检验的假设、设计模拟或实验并解释结果。 将这种两阶段科学发现评估(SDE)框架应用于最先进的LLMs后发现:相较于通用科学基准测试,模型表现存在系统性差距;扩大模型规模和增强推理能力带来的收益呈现递减趋势;不同供应商的顶级模型存在共有的系统性弱点。各研究场景中表现的大幅波动,导致在不同科学发现项目评估中,最佳模型的选择随之变化。这表明当前所有LLMs距离通用的科学“超级智能”仍相当遥远。尽管如此,LLMs已在众多科学发现项目中展现出潜力——即便在某些构成场景得分较低的情况下依然如此,这凸显了引导式探索与意外发现在科学发现中的作用。本SDE框架为开展与发现相关的LLMs评估提供了可复现的基准,并为推动其面向科学发现的发展规划了实用路径。
大型语言模型(Large Language Models,LLMs)正开始加速科学发现中的核心环节,从文献筛选与假设生成,到计算模拟、代码合成,乃至自主实验。¹–⁷
最初,LLMs 主要作为结构–性质预测和简单问答任务的替代模型出现,⁸–¹¹ 而随着强化学习与测试时计算(test-time compute)所带来的推理能力的显现,LLMs 尤其在科学发现中的角色得到了进一步拓展,展现出提供直觉性理解与洞见的潜力。¹²–¹⁷ 具有代表性的成功案例包括 ChemCrow、¹⁸ 自主“共科学家”(co-scientists)、¹⁹–²¹ 以及用于纳米抗体设计的虚拟实验室(Virtual Lab)²²,这些系统通过将语言推理与领域工具、实验室自动化,甚至具身系统(如 LabOS²³)相结合,已经能够进行实验规划、执行与结果解读。总体而言,这些实例表明,LLMs 已经能够在“人类在环”(human-in-the-loop)的科学发现过程中为科学家提供有效辅助。²⁴–³⁵ 相比之下,面向科学发现的模型评测却明显滞后于这种端到端的现实需求。³⁶ 在编程(如 SWE-bench verified³⁷)、数学(如 AIME³⁸)、写作与表达(如 Arena-hard³⁹)以及工具使用(如 Tau2-bench⁴⁰)等领域,基准测试已经发展为相对稳定的评测体系,具有明确的真实标签(ground truth)和对能力提升的较强预测效度(见图 1a)。然而,广泛使用的科学类基准(如 GPQA⁴¹、ScienceQA⁴²、MMMU⁴³、Humanity’s Last Exam⁴⁴)仍然主要是去语境化、感知驱动的问答(Q&A)任务,题目与具体科研领域的关联较弱,并且容易受到标签噪声的影响(见图 1b)。即便在静态、去语境化问题上实现完美掌握,也并不意味着模型已经具备进行科学发现的能力,正如课程成绩全 A 并不能保证成为一名杰出的研究者。⁴⁵–⁴⁷ 随着 LLMs 更加深入地融入科学研究与发现流程,合理的评测应当衡量模型对具体研究语境的理解能力、在不完备证据下进行推理并迭代式地修正假设的能力,而不仅仅是回答孤立的问题。⁴⁸ 为此,我们提出了一种基于真实科研场景的系统性 LLM 评测框架,用于科学发现,称为科学发现评测(Scientific Discovery Evaluation,SDE,见图 1c)。在生物、化学、材料和物理四个领域中,我们从领域专家真正感兴趣的具体研究项目出发,将每个项目拆解为模块化的研究场景,这些场景在科学上是有根据的,并且可在多个应用中复用。在每个场景中,我们构建了经过专家审核的问题,问题格式与传统 LLM 基准一致(选择题或精确匹配),使其评测结果能够量化地反映模型在上下文内科学发现中的进展。SDE 中问题、场景与项目之间的紧密联系,使得该基准能够真实揭示 LLMs 在科学发现方面的能力。 除了像传统科学基准那样进行逐题评测外,我们还在开放式科学发现项目层面对 LLMs 的表现进行评估。在这一设置中,LLMs 被真正置于科学发现流程之中,需要自主提出可检验的假设、运行模拟或实验,并对结果进行解读以修正原始假设,从而模拟一个端到端的科学发现过程;其发现导向的结果(例如所提出过渡金属配合物的极化率)将作为评估依据。项目级评测揭示了研究流程中各阶段的能力差距与失败模式。将这一多层级评测框架应用于不同时间发布的最先进 LLMs,形成了一个纵向、细粒度的基准,能够揭示当前模型在哪些方面成功、在哪些方面失败,以及失败的原因。由此得到的分析为引导 LLM 朝向科学发现能力的发展提供了可操作的方向,包括:针对问题表述的定向训练、数据来源的多样化、在训练中内嵌计算工具使用能力,以及面向科学推理的强化学习策略设计。
测验型问题与发现型问题之间的性能差距。
为了超越传统科学 Q&A 基准中“机会式”拼凑问题的做法,SDE 中的问题采用了完全不同的收集流程(见图 1c)。在每个领域中,一个由多名专家组成的小组定义了约十个常见研究场景,这些场景是 LLMs 有可能在其当前研究项目中提供帮助的。场景覆盖了从人类专家相对擅长的任务(如基于特定实验观测进行决策),到在缺乏工具辅助下几乎难以处理的任务(如仅根据过渡金属配合物结构推断其氧化态与自旋态)。在可行的情况下,问题通过从开放数据集中采样并模板化的方式半自动生成⁴⁶,例如核磁共振(NMR)谱到分子结构的映射问题;否则,尤其是在实验相关场景中,问题由专家手工撰写。每一道问题都经过专家组审核,只有在对其有效性和正确性达成一致的情况下才被纳入,最终形成了包含 1,125 道问题的 SDE 基准(见方法部分“研究场景与问题收集”)。 这种设计将每一道问题都与具体研究场景相绑定,确保问题的正确性反映的是在实际科学发现项目中的进展,而非去语境化的知识性问答,同时也允许在相同粒度下对不同 LLMs 进行比较。为了理解流行的编程、数学与表达类基准上的性能如何迁移到科学发现任务中,我们使用改造后的 lm-evaluation-harness 框架,通过 API 对来自 OpenAI、Anthropic、Grok 和 DeepSeek 等不同提供方的顶级模型进行评测,该框架支持多种任务类型的灵活评估⁴⁹(见方法部分“模型评测”)。在所有模型中,仅 deepseek-V3.1 和 deepseek-R1 为完全开源权重模型。¹⁵ 在每个研究场景中,模型得分定义为其正确回答问题的比例,并在领域层面进行汇总(见图 2a)。不同模型之间的性能差异显著,而在所有领域中,最新一代商业旗舰模型均排名最高(见补充图 1)。作为对比,在 SDE 基准上,最先进模型在生物领域达到 0.71(claude-4.1-opus),化学领域 0.60(claude-4.5-sonnet),材料领域 0.75(gpt-5),物理领域 0.60(gpt-5);而同一类别的模型在 MMMU-Pro 和 GPQA-Diamond 上分别达到 0.84 和 0.86(gpt-5)。这一结果清楚地表明,去语境化 Q&A 与基于场景的科学发现问题之间始终存在显著差距(见图 2b)。尽管近期科学文献主要以英文撰写,存在语料语言效应,但我们发现,作为当前最强开源权重模型代表的 deepseek-R1,已开始接近顶级闭源 LLM 的性能,显著缩小了仅在数次版本更新前仍十分明显的差距。这一现象凸显了开源社区在训练数据、方法和基础设施方面持续迭代改进的速度。¹⁵,⁵⁰ 模型在不同研究场景中的表现差异同样显著(见图 2a 与补充图 2)。例如,gpt-5 在逆合成规划任务中表现出色(得分 0.85),但在 NMR 结构解析任务中却表现不佳(得分 0.23)。这一现象在所有被评测的 LLMs 中均存在,且每个领域内的准确率跨度都很大,进一步印证了仅按领域或子领域划分问题的传统科学基准,无法精细刻画 LLMs 的优势与短板。由于科学发现往往会被最薄弱环节中的错误信息或错误决策所阻断,这种细粒度评估尤为重要。借助 SDE 基准,我们构建了一张“能力查找表”,帮助研究人员在将 LLMs 纳入其科研流程时,评估模型在特定研究场景下的适用性。
在既有的编程和数学基准上,最先进模型的性能通常随着版本迭代而持续提升,而推理能力是这些进步的重要驱动力,这一点在科学发现中同样至关重要。⁵¹,⁵² 在对其他条件相当的模型进行直接比较时,具有显式测试时推理能力的模型,在 SDE 问题上始终优于其非推理版本,其中最典型的例子是 deepseek-R1 相较于 deepseek-V3.1 的性能提升,两者共享相同的基础模型¹⁵(见图 2c)。这一效应在生物、化学、材料和物理四个领域以及大多数研究场景中均成立,表明与多步推导和证据整合相关的推理能力提升,能够直接转化为发现导向任务中的更高准确率(见图 2d)。一个显著案例是让 LLMs 判断某一有机分子是否满足著名的“利平斯基五规则”(Lipinski’s rule of five),这是预测药物候选口服生物利用度的重要经验准则,在该任务中推理能力尤为关键(见图 2e)。启用推理能力后,DeepSeek 模型的准确率从 0.65 提升至 1.00。 然而,尽管推理带来了明确收益,当我们跟踪 gpt-5 在不同推理强度下在 SDE 基准上的表现时,整体性能开始趋于饱和,其提升幅度变得有限,且往往落在统计上可忽略的范围内,即便这些模型在编程或数学基准上刷新了纪录(见图 3a、补充图 3 与图 4)。例如,在中等与高强度推理设置之间,准确率几乎没有提升(生物领域 0.70 vs. 0.69,化学领域 0.53 vs. 0.60,材料领域 0.74 vs. 0.75,物理领域 0.58 vs. 0.60),表明通过增加测试时计算来推动科学发现能力的主流路线正在出现收益递减(见补充图 7)。除了推理之外,模型规模扩展也是当前 LLM 成功的重要因素。我们确实观察到,随着 gpt-5 从 nano、mini 扩展到默认的大规模版本,其准确率呈现单调提升趋势(见图 3b)。然而,这种规模化效应在过去一年中也可能有所放缓,例如 gpt-5 相较于 o3 的性能提升非常有限,甚至在 8 个研究场景中表现显著更差(准确率差异 >0.075,见图 3c)。类似地,在控制推理因素后,从 gpt-4o 到 gpt-5 的性能提升也几乎可以忽略,表明在过去 18 个月中,预训练基础模型在发现类任务上的行为似乎已趋于收敛。推理与规模分析的结论并非意味着进展停滞,而是说明科学发现对能力的要求不同于通用科学 Q&A,更强调问题表述、假设迭代以及对不完备证据的解释能力。
在比较不同提供方的顶级模型(如 gpt-5、grok-4、deepseek-R1 和 claude-sonnet-4.5)时,我们发现它们的准确率分布高度相关,往往在相同的研究场景中同步升高或下降(见图 3d 与补充图 5)。这种相关性在化学和物理领域尤为显著,四个模型之间所有成对的 Spearman 和 Pearson 相关系数均超过 0.8(见补充图 8)。此外,即便总体准确率存在差异,这些顶级 LLMs 也常常在最困难的一组问题上给出相同的错误答案(见图 3e 与补充图 6)。例如,在 MOF 合成问题上,尽管整体准确率较高,四个模型仍在 22 道问题中的 4 道上犯下完全相同的错误。这种错误模式的一致性表明,前沿 LLMs 在很大程度上共享相似的优势与系统性弱点,这些弱点更可能源于相似的预训练数据与目标,而非具体的架构或实现细节。⁵³ 在实践中,这意味着简单的集成策略(如跨提供方的多数投票)在当前 LLMs 本质上困难的场景和问题上,可能只能带来有限改进(见补充图 2 与图 9)。SDE 的场景化设计使这些相关性变得可见且可复现,不仅揭示了模型总体上的成功之处,也以更细粒度的方式揭示了它们在发现导向任务中“何处、为何失败”,从而暴露出贯穿研究流程的共性失败模式(见补充图 10)。 基于这种在最困难问题上的一致性失败行为,我们进一步收集了 86 道问题——每个研究场景中选取 2 道顶级 LLM 错误率最高的问题——构成了名为 SDE-hard 的子集(见图 3f)。所有 LLMs 在这些最具挑战性的科学发现问题上的得分均低于 0.12(见补充图 11 与图 12)。令人意外的是,gpt-5-pro 相较于 gpt-5 及其他提供方的旗舰模型取得了显著提升。尽管其推理成本高出约 12 倍,gpt-5-pro 在 9 道问题上给出了其他所有模型均错误的正确答案(见补充图 13)。这一结果表明,其在需要长链推理的极端困难问题上具有竞争优势,而这正是科学发现任务的典型特征。然而,即便如此,其准确率仍有很大提升空间,这也使得 SDE-hard 成为未来高推理成本 LLMs 的理想测试集。