会员服务 ·

清华十大才女宋晓东教授团队新作，教语言模型更会做数学题

2021 年 3 月 19 日 新智元

新智元报道

来源：外媒

编辑：yaxin, LQ

【新智元导读】GPT-3很强大？但做数学题不行。最新研究表明，当GPT-3面对一个包含1.3万道数学题的数据集时，它的完成度远达不到10%. 那么如何提高语言模型的解题能力？加州大学伯克利分校最新的一项研究提供了新思路。

数学是人类科学的基础。

我们在模拟行星轨道、原子运动、信号频率、蛋白质折叠等活动中都离不开数学。

即便今天最先进的机器学习模型也难以正确解决大量的数学问题。

加州大学伯克利分校的研究人员发表的一项新研究发现，包括OpenAI的GPT-3在内的大型语言模型在包含12500多道数学题的数据集中只能完成2.9%—6.9%的问题。

论文作者认为，「新的算法进步可能需要给予模型更强的解决问题的技能。」

语言模型解决数学问题

先前的研究已经证明了人工智能对数学概念的牢固掌握是非常有用的。

例如，OpenAI最近引入的GPT-f就很好地阐明了这个问题。

与GPT-3类似，最新推出的GPT-f同样是基于Transformer的语言模型。

该语言模型为 Metamath 形式化语言提供了自动证明器和证明助理（Proof Assistant）两个部分，目标是解决自动定理证明（ATP）的问题。

这项研究成果表明，GPT-f 能够产出新的简短命题证明，这些证明已被 Metamath 数学库接受。

这是第一次一个基于机器学习的系统提供的证明被一个正式的数学社区所采用。

除此之外，Facebook也声称已经成功地进行了人工智能算法的数学求解实验。

在去年1月的一篇博文中，该公司的研究人员表示，他们已经教会了一个模型，将复杂的数学方程视为一种语言，然后将解决方案视为翻译问题。

加州大学伯克利分校的研究人员认为，虽然大型语言模型解决了大多数其他基于文本的任务，但是数学却截然不同，其准确性正在缓慢提高。

如果按照这种趋势继续下去，社区将需要找到概念和算法上的突破，以获得强大的数学表现。

「考虑到数学的广泛性和适用性，用机器学习解决数学数据集将具有深远的意义。」

全新开源数据集MATH和AMPS

为了测量大型通用语言模型的解题能力，研究人员创建了MATH数据集，其中包括12500道高中数学竞赛的题目。对于 MATH所出的题，语言模型必须生成一个序列来揭示最终答案。

MATH数据集的数学题目与DeepMind的数学数据集和Metamath模块的数学题目的比较（图源: MATH）

MATH的数学题按难度从1到5划分，涵盖7个学科：几何、代数、微积分、统计学、线性代数和数论。

它们还提供了分步解决方案，这样语言模型就可以学习回答他们以前从未见过的新问题。

训练数学基本原理的模型要求研究人员创建一个单独的数据集，包含数十万个常见数学问题的解题方法。

第二个数据集是「Auxiliary Mathematics Problems and Solutions」(AMPS) ，其中包括「可汗学院」提供的10万多个题目和解题方法，以及使用基于100个手工设计模块的Mathematica脚本生成的500多万道题。AMPS数据集总共包含23GB的内容。

非盈利教育机构可汗学院

正如研究人员解释的那样，数据集的分步解决方案允许语言模型像人类数学家那样使用「涂销空间」。

模型不需要马上得到正确答案，而是可以先在部分解题方法中「展示他们的工作」，再逐步走向正确的答案。

MATH数据集给定部分解法的准确率

以题目的大部分步解法为条件的模型往往可以通过理解解法来预测最终答案。'99%'的解法是指最终答案之前的所有解法文本。并不是所有的解题方法都有一个答案，都可以直接从前面的解题文本中找到。

即使有了这些解题方法，论文作者发现他们所测试的大型语言模型 (GPT-3及其前身GPT-2）的准确率仍然很低。让模型在生成答案之前生成自己的解题方案实际上降低了准确性，因为尽管许多步骤与题目相关，但它们是不合逻辑的。

此外，简单地增加训练时间和模型中的参数数量，有时可以提高性能，但事实证明这样做不仅代价很高而且并不实用。(在机器学习中，参数是变量，其值控制学习过程。)

在这种情况下，研究人员表明，分步解题方法仍然可以改善性能。特别是，在训练时提供解题方案模型大大提高了准确性，AMPS的预训练准确性提高了25%左右，相当于模型大小增加了15倍。

「尽管准确度很低，但模型显然拥有一些数学知识: 在最低难度级别上，它们可以达到15% 的准确率，而且即使不正确，它们也能够逐步生成连贯的、与主题相关的解题方案......与直接对问题和答案进行训练相比，对模型进行解题方案的训练相对准确性可以提高10%.

目前两个数据集MATH和AMPS都已开源，再加上DeepMind的数学数据集，这将进一步这方面的研究。

作者介绍

个人主页：https://people.eecs.berkeley.edu/~hendrycks/

本论文的一作Dan Hendrycks是加州大学伯克利分校计算机科学专业的三年级博士生，导师是Dawn Song（宋晓东）和Jacob Steinhardt，两位导师也是本论文的作者之一。

Hendrycks的研究方向是安全可靠的机器学习，他曾获得美国国家科学基金会GRFP（Graduate Research Fellowship Program）奖学金，研究成果包括激活函数GELU，分布外检测基准和分布偏移基准。

该论文的另一名作者宋晓东，是美籍华人学者，现任加州大学伯克利分校电气工程与计算机科学系教授。

她的研究集中在计算机安全、机器学习和区块链。

宋晓东教授还被称为「计算机安全教母」，2019年，她因「对安全和隐私的贡献」而被选为ACM研究员。

另外她还是区块链云计算提供商绿洲实验室（Oasis Labs）创始人兼CEO，致力于打造区块链上隐私性第一、高性能的云计算平台。

1996年获得清华大学学士学位，1999年获得卡内基梅隆大学硕士学位，2002年获得加州大学伯克利分校博士学位。

在2007年加入加州大学伯克利分校之前，她在卡内基梅隆大学做助理教授(2002-2007)。

宋晓东教授曾获得多项大奖，包括斯隆研究奖、美国国家科学基金会职业奖（CAREER Award）、 IBM杰出学者奖（Faculty Award）、古根海姆奖、麦克阿瑟基金会奖学金，2009年，《麻省理工科技评论》的TR35将她列为全球35岁以下创新者之一。

参考资料：

https://venturebeat.com/2021/03/09/researchers-find-that-large-language-models-struggle-with-math/

https://arxiv.org/pdf/2103.03874.pdf

登录查看更多

相关内容

语言模型

关注 0

【AAAI2021】预训练语言模型最新进展，附113页ppt和视频

专知会员服务

65+阅读 · 2021年2月23日

【干货书】计算机科学离散数学，627页pdf

专知会员服务

134+阅读 · 2020年8月31日

【斯坦福大学博士论文】机器学习中的凸优化问题,108页pdf

专知会员服务

162+阅读 · 2020年6月14日

【SIGIR2020-斯坦福大学】一种新的又好又快的BERT类信息检索模型-ColBERT

专知会员服务

44+阅读 · 2020年4月28日

斯坦福新书《应用线性代数导论：向量、矩阵和最小二乘法》473页pdf，带你入门学习

专知会员服务

255+阅读 · 2019年11月30日

媲美人类对话水平！微软最新NLP模型3项评分全面超越人类水平！

机器学习算法与Python学习

8+阅读 · 2019年5月4日

再破新纪录！微软最新NLP模型3项评分全面超越人类水平！

新智元

8+阅读 · 2019年5月4日

【资源】这本开放书籍帮你扫清通往ML的数学绊脚石

机器学习算法与Python学习

56+阅读 · 2018年10月28日

丘成桐：攻克物理难题的数学大师

科技导报

5+阅读 · 2018年7月23日

Deepmind 新成果，让机器挑战更复杂阅读理解问题

AI掘金志

11+阅读 · 2018年1月3日

Dynamically Pruned Message Passing Networks for Large-Scale Knowledge Graph Reasoning

Arxiv

6+阅读 · 2019年9月27日

Modeling question asking using neural program generation

Arxiv

4+阅读 · 2019年9月26日

Attention Is (not) All You Need for Commonsense Reasoning

Arxiv

7+阅读 · 2019年5月31日

Text Generation with Exemplar-based Adaptive Decoding

Arxiv

4+阅读 · 2019年4月9日

Bidirectional Attention for SQL Generation

Arxiv

4+阅读 · 2018年6月21日

VIP会员