We consider the problem of learning generalized policies for classical planning domains using graph neural networks from small instances represented in lifted STRIPS. The problem has been considered before but the proposed neural architectures are complex and the results are often mixed. In this work, we use a simple and general GNN architecture and aim at obtaining crisp experimental results and a deeper understanding: either the policy greedy in the learned value function achieves close to 100% generalization over instances larger than those used in training, or the failure must be understood, and possibly fixed, logically. For this, we exploit the relation established between the expressive power of GNNs and the $C_{2}$ fragment of first-order logic (namely, FOL with 2 variables and counting quantifiers). We find for example that domains with general policies that require more expressive features can be solved with GNNs once the states are extended with suitable "derived atoms" encoding role compositions and transitive closures that do not fit into $C_{2}$. The work follows the GNN approach for learning optimal general policies in a supervised fashion (Stahlberg, Bonet, Geffner, 2022); but the learned policies are no longer required to be optimal (which expands the scope, as many planning domains do not have general optimal policies) and are learned without supervision. Interestingly, value-based reinforcement learning methods that aim to produce optimal policies, do not always yield policies that generalize, as the goals of optimality and generality are in conflict in domains where optimal planning is NP-hard.


翻译:我们考虑的是,如何从取消的STTRIP中代表的小例子中学习经典规划领域的通用政策。问题以前曾考虑过,但拟议的神经结构复杂,结果往往不一。在这项工作中,我们使用一个简单和一般的GNN架构,目的是获得精确的实验结果和更深入的理解:要么在学习的价值观功能中,政策贪婪在比培训中使用的要大的情况下达到接近100%的概括化,要么必须理解失败,并可能从逻辑上加以修正。为此,我们利用GNN在GNN的表达力和$C2}美元规划逻辑(即FOL,具有2个变量和计数量化符)之间建立起来的关系。我们发现,举例来说,如果国家以适合的“从原子”编码角色构成和过渡性关闭的方式扩展,那么,这种失败就必须被理解为不符合$C2}基础的过渡性关闭。我们采用GNNU的方法来学习最优化的总体政策(Starberg,Bonet,Geffner) 和一级逻辑(即FOL,具有2变量和计分数分数分数分数的分数的分数的逻辑 ) 。我们发现,一般政策在最优化政策中,在最优化政策中,最优化政策中不需要学习到最优化政策中,最优化的政策是最优化的政策是最优化的政策是最优化的政策,最优化的阶段化,而不是最优化的政策在学习的方面,最优化的政策是最优化政策,而不是最优化政策,在学习最优化的政策,而不是最优化的方面,而不是最优化政策,在最优化的方面,而不是最优化的政策是最优化的政策是最优化的政策,在学习程度。

0
下载
关闭预览

相关内容

Keras François Chollet 《Deep Learning with Python 》, 386页pdf
专知会员服务
163+阅读 · 2019年10月12日
强化学习最新教程,17页pdf
专知会员服务
182+阅读 · 2019年10月11日
【SIGGRAPH2019】TensorFlow 2.0深度学习计算机图形学应用
专知会员服务
41+阅读 · 2019年10月9日
ACM MM 2022 Call for Papers
CCF多媒体专委会
5+阅读 · 2022年3月29日
ACM TOMM Call for Papers
CCF多媒体专委会
2+阅读 · 2022年3月23日
AIART 2022 Call for Papers
CCF多媒体专委会
1+阅读 · 2022年2月13日
Hierarchically Structured Meta-learning
CreateAMind
27+阅读 · 2019年5月22日
Transferring Knowledge across Learning Processes
CreateAMind
29+阅读 · 2019年5月18日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2008年12月31日
Arxiv
0+阅读 · 2022年6月30日
A Modern Introduction to Online Learning
Arxiv
21+阅读 · 2019年12月31日
VIP会员
相关资讯
ACM MM 2022 Call for Papers
CCF多媒体专委会
5+阅读 · 2022年3月29日
ACM TOMM Call for Papers
CCF多媒体专委会
2+阅读 · 2022年3月23日
AIART 2022 Call for Papers
CCF多媒体专委会
1+阅读 · 2022年2月13日
Hierarchically Structured Meta-learning
CreateAMind
27+阅读 · 2019年5月22日
Transferring Knowledge across Learning Processes
CreateAMind
29+阅读 · 2019年5月18日
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2008年12月31日
Top
微信扫码咨询专知VIP会员