Efficient equilibrium sampling of molecular conformations remains a core challenge in computational chemistry and statistical inference. Classical approaches such as molecular dynamics or Markov chain Monte Carlo inherently lack amortization; the computational cost of sampling must be paid in full for each system of interest. The widespread success of generative models has inspired interest towards overcoming this limitation through learning sampling algorithms. Despite performing competitively with conventional methods when trained on a single system, learned samplers have so far demonstrated limited ability to transfer across systems. We demonstrate that deep learning enables the design of scalable and transferable samplers by introducing Prose, a 285 million parameter all-atom transferable normalizing flow trained on a corpus of peptide molecular dynamics trajectories up to 8 residues in length. Prose draws zero-shot uncorrelated proposal samples for arbitrary peptide systems, achieving the previously intractable transferability across sequence length, whilst retaining the efficient likelihood evaluation of normalizing flows. Through extensive empirical evaluation we demonstrate the efficacy of Prose as a proposal for a variety of sampling algorithms, finding a simple importance sampling-based finetuning procedure to achieve competitive performance to established methods such as sequential Monte Carlo. We open-source the Prose codebase, model weights, and training dataset, to further stimulate research into amortized sampling methods and finetuning objectives.


翻译:分子构象的高效平衡采样仍然是计算化学与统计推断领域的核心挑战。传统方法如分子动力学或马尔可夫链蒙特卡洛本质上缺乏摊销性:每个目标系统的采样计算成本必须全额支付。生成模型的广泛成功激发了通过机器学习采样算法突破这一局限的研究兴趣。尽管在单系统训练中与传统方法表现相当,现有学习型采样器在跨系统迁移能力方面仍显不足。我们证明深度学习能够通过引入Prose——一个基于肽分子动力学轨迹库(长度达8个残基)训练的2.85亿参数全原子可迁移归一化流——实现可扩展且可迁移的采样器设计。Prose能够为零样本任意肽系统生成无关联的候选样本,实现了以往难以达成的跨序列长度迁移能力,同时保留了归一化流的高效似然评估特性。通过大量实证评估,我们证明了Prose作为多种采样算法候选分布的有效性,并提出基于重要性采样的简单微调流程,使其在序列蒙特卡洛等经典方法中达到竞争性性能。我们开源了Prose代码库、模型权重及训练数据集,以进一步推动摊销采样方法与微调目标的研究。

0
下载
关闭预览

相关内容

【NeurIPS 2022】扩散模型的深度平衡方法
专知会员服务
40+阅读 · 2022年11月5日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
VIP会员
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员