在数据稀缺场景下,归纳偏置(inductive bias) 对机器学习至关重要,但其在数据丰富环境中的最优作用仍未被充分理解。本论文挑战了一个传统观点,即:在数值数据建模中(尤其是物理与化学领域),必须依赖严格的架构约束。通过系统的实证研究,我展示了数据驱动的方法在没有显式架构约束的情况下,也能有效学习物理对称性与更广泛的数值模式。

首先,我证明了在经过数据增强训练的 Transformer 模型中,其获得的等变性(equivariance)性质甚至强于卷积神经网络,尽管后者内置了对称性约束。基于这一发现,我进一步探究了预训练语言模型是否能够仅从文本中学习到可泛化的数值能力。通过在多种场景下分析语言模型的表现,我发现文本预训练会诱导模型倾向于简单函数,这种偏好成为跨数值领域的一种强大归纳偏置。这种新兴偏置使得大语言模型能够在时间序列预测与三维结构预测等基准任务上超越专门设计的架构,并以最小化的任务适配达到最新的性能水平。 然而,这些优势并非普遍适用。我识别出分子性质预测是一个关键局限,并将其归因于离散 token 表示中的根本约束。本研究最终提出了一个系统框架,用于理解在数值领域中何时可以用学习到的偏置取代架构约束,并对科学机器学习中的模型设计具有重要启示意义。

成为VIP会员查看完整内容
3

相关内容

博士论文是由攻读博士学位的研究生所撰写的学术论文。它要求作者在博士生导师的指导下,选择自己能够把握和驾驭的潜在的研究方向,开辟新的研究领域。由此可见,这就对作者提出了较高要求,它要求作者必须在本学科的专业领域具备大量的理论知识,并对所学专业的理论知识有相当深入的理解和思考,同时还要具有相当水平的独立科学研究能力,能够为在学科领域提出独创性的见解和有价值的科研成果。因而,较之学士论文、硕士论文,博士论文具有更高的学术价值,对学科的发展具有重要的推动作用。
【NYU博士论文】机器学习仿真
专知会员服务
18+阅读 · 7月14日
【CMU博士论文】经典方法对现代机器学习的改进
专知会员服务
29+阅读 · 2024年8月16日
论文浅尝 | 采用多层注意力机制的事件检测
开放知识图谱
24+阅读 · 2019年8月24日
SFFAI报告 | 常建龙 :深度卷积网络中的卷积算子研究进展
人工智能前沿讲习班
11+阅读 · 2018年10月22日
论文浅尝 | 变分知识图谱推理:在KG中引入变分推理框架
国家自然科学基金
9+阅读 · 2017年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
14+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
8+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
Arxiv
171+阅读 · 2023年4月20日
A Survey of Large Language Models
Arxiv
482+阅读 · 2023年3月31日
Arxiv
79+阅读 · 2023年3月26日
Arxiv
175+阅读 · 2023年3月24日
Arxiv
25+阅读 · 2023年3月17日
VIP会员
相关基金
国家自然科学基金
9+阅读 · 2017年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
14+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
8+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
微信扫码咨询专知VIP会员