Going from pure Multilayer Perceptron (MLP) to a learnable graph message-passing mechanism at each layer has been foundational to state-of-the-art results, despite the computational trade-off (e.g. GATs or Transformers). To go a step further, in this work, we introduce N-simplicial attention, going from pairwise token similarity to higher-order interactions, and adapt it for Rotary Position Embeddings (RoPE). To help manage the increased complexity, we propose a cost-effective simplex selection enabling the model to focus its computation load onto the more task-sensitive interactions. Beyond these core mechanisms, we study how smoothing N-simplicial attention is by deriving a Lipschitz upper-bound and by demonstrating that by itself it also suffers from over-smoothing, despite opening the attention message-passing to higher-order interactions.


翻译:从纯粹的多层感知机(MLP)转向每层可学习的图消息传递机制,已成为实现最先进结果的基础,尽管存在计算权衡(例如GAT或Transformer)。为进一步推进,本研究引入N-单纯形注意力机制,将成对令牌相似性扩展至高阶交互,并使其适配旋转位置编码(RoPE)。为应对增加的复杂度,我们提出一种经济高效的单纯形选择方法,使模型能将计算资源集中于对任务更敏感的交互上。除核心机制外,我们通过推导Lipschitz上界,并证明该机制尽管将注意力消息传递扩展至高阶交互,其本身仍存在过度平滑问题,从而系统研究了N-单纯形注意力的光滑性特性。

0
下载
关闭预览

相关内容

【NeurIPS2024】迈向具有不完整数据的鲁棒多模态情感分析
【ICLR2022】Vision Transformer 模型工作机制的最新理论
专知会员服务
43+阅读 · 2022年2月19日
AAAI 2022 | ProtGNN:自解释图神经网络
专知
10+阅读 · 2022年2月28日
【NeurIPS2019】图变换网络:Graph Transformer Network
注意力机制可解释吗?这篇ACL 2019论文说……
机器之心
11+阅读 · 2019年6月16日
国家自然科学基金
1+阅读 · 2016年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Arxiv
0+阅读 · 12月15日
VIP会员
相关资讯
相关基金
国家自然科学基金
1+阅读 · 2016年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员