Tabular foundation models such as TabPFN have revolutionized predictive machine learning for tabular data. At the same time, the driving factors of this revolution are hard to understand. Existing open-source tabular foundation models are implemented in complicated pipelines boasting over 10,000 lines of code, lack architecture documentation or code quality. In short, the implementations are hard to understand, not beginner-friendly, and complicated to adapt for new experiments. We introduce nanoTabPFN, a simplified and lightweight implementation of the TabPFN v2 architecture and a corresponding training loop that uses pre-generated training data. nanoTabPFN makes tabular foundation models more accessible to students and researchers alike. For example, restricted to a small data setting it achieves a performance comparable to traditional machine learning baselines within one minute of pre-training on a single GPU (160,000x faster than TabPFN v2 pretraining). This eliminated requirement of large computational resources makes pre-training tabular foundation models accessible for educational purposes. Our code is available at https://github.com/automl/nanoTabPFN.


翻译:以TabPFN为代表的表格基础模型已彻底革新了表格数据的预测性机器学习。然而,这一革新背后的驱动因素却难以理解。现有的开源表格基础模型实现于复杂的流程中,代码量超过一万行,且缺乏架构文档或代码质量保证。简而言之,这些实现难以理解,对初学者不友好,且难以适配新的实验。我们提出了nanoTabPFN,这是TabPFN v2架构的一个简化、轻量级实现,并配有使用预生成训练数据的相应训练循环。nanoTabPFN使得表格基础模型对学生和研究人员都更加易于接触。例如,在小型数据设置下,它仅需在单个GPU上进行一分钟的预训练(比TabPFN v2的预训练快160,000倍),即可达到与传统机器学习基线相当的性能。这种对大规模计算资源需求的消除,使得为教育目的进行表格基础模型的预训练成为可能。我们的代码可在 https://github.com/automl/nanoTabPFN 获取。

0
下载
关闭预览

相关内容

代码(Code)是专知网的一个重要知识资料文档板块,旨在整理收录论文源代码、复现代码,经典工程代码等,便于用户查阅下载使用。
【CVPR2024】MoReVQA:探索视频问答的模块化推理模型
专知会员服务
18+阅读 · 2024年4月10日
【WWW2024】GraphPro:推荐系统中的图预训练与提示学习
专知会员服务
23+阅读 · 2024年1月26日
专知会员服务
27+阅读 · 2021年2月2日
使用 Keras Tuner 调节超参数
TensorFlow
15+阅读 · 2020年2月6日
Auto-Keras与AutoML:入门指南
云栖社区
18+阅读 · 2019年2月9日
语义分割中的深度学习方法全解:从FCN、SegNet到DeepLab
炼数成金订阅号
26+阅读 · 2017年7月10日
国家自然科学基金
17+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
VIP会员
相关资讯
使用 Keras Tuner 调节超参数
TensorFlow
15+阅读 · 2020年2月6日
Auto-Keras与AutoML:入门指南
云栖社区
18+阅读 · 2019年2月9日
语义分割中的深度学习方法全解:从FCN、SegNet到DeepLab
炼数成金订阅号
26+阅读 · 2017年7月10日
相关基金
国家自然科学基金
17+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
Top
微信扫码咨询专知VIP会员