This paper presents a new Vision Transformer (ViT) architecture Multi-Scale Vision Longformer, which significantly enhances the ViT of \cite{dosovitskiy2020image} for encoding high-resolution images using two techniques. The first is the multi-scale model structure, which provides image encodings at multiple scales with manageable computational cost. The second is the attention mechanism of vision Longformer, which is a variant of Longformer \cite{beltagy2020longformer}, originally developed for natural language processing, and achieves a linear complexity w.r.t. the number of input tokens. A comprehensive empirical study shows that the new ViT significantly outperforms several strong baselines, including the existing ViT models and their ResNet counterparts, and the Pyramid Vision Transformer from a concurrent work \cite{wang2021pyramid}, on a range of vision tasks, including image classification, object detection, and segmentation. The models and source code are released at \url{https://github.com/microsoft/vision-longformer}.


翻译:本文介绍了一个新的视野变换器(VIT)架构多范围愿景长征,它大大加强了使用两种技术对高分辨率图像进行编码的 VIT\ cite{dosovitskiy202020image} 的 VIT, 使用两种技术对高清晰度图像进行编码。 首先是多尺度模型结构, 提供多种比例的图像编码, 且计算成本可以控制。 第二是视野变换器Longexe的注意机制, 这是一种为自然语言处理而开发的变体, 并实现了线性复杂度( w.r.t. ) 输入符号的数量。 一项全面的经验研究表明, 新的 VIT 明显超越了几个强大的基线, 包括现有的 VIT 模型及其 ResNet 对应方, 以及同时工作的 Pyramidrimid 视野变体, 包括图像分类、 对象探测和分区。 模型和源代码发布在\url{https://github.com/microcrosoft/vision-Longsurent} 。

4
下载
关闭预览

相关内容

专知会员服务
46+阅读 · 2021年6月1日
最新《Transformers模型》教程,64页ppt
专知会员服务
325+阅读 · 2020年11月26日
【Google】多模态Transformer视频检索,Multi-modal Transformer
专知会员服务
103+阅读 · 2020年7月22日
分布式并行架构Ray介绍
CreateAMind
10+阅读 · 2019年8月9日
Unsupervised Learning via Meta-Learning
CreateAMind
43+阅读 · 2019年1月3日
计算机视觉领域顶会CVPR 2018 接受论文列表
Hierarchical Imitation - Reinforcement Learning
CreateAMind
19+阅读 · 2018年5月25日
条件GAN重大改进!cGANs with Projection Discriminator
CreateAMind
8+阅读 · 2018年2月7日
VIP会员
相关资讯
分布式并行架构Ray介绍
CreateAMind
10+阅读 · 2019年8月9日
Unsupervised Learning via Meta-Learning
CreateAMind
43+阅读 · 2019年1月3日
计算机视觉领域顶会CVPR 2018 接受论文列表
Hierarchical Imitation - Reinforcement Learning
CreateAMind
19+阅读 · 2018年5月25日
条件GAN重大改进!cGANs with Projection Discriminator
CreateAMind
8+阅读 · 2018年2月7日
Top
微信扫码咨询专知VIP会员