Transformer in computer vision has recently shown encouraging progress. In this work, we improve the original Pyramid Vision Transformer (PVTv1) by adding three improvement designs, which include (1) overlapping patch embedding, (2) convolutional feed-forward networks, and (3) linear complexity attention layers. With these simple modifications, our PVTv2 significantly improves PVTv1 on classification, detection, and segmentation. Moreover, PVTv2 achieves better performance than recent works, including Swin Transformer. We hope this work will make state-of-the-art vision Transformer research more accessible. Code is available at https://github.com/whai362/PVT .


翻译:在这项工作中,我们改进了原金字塔愿景变异器(PVTv1),增加了三项改进设计,其中包括:(1) 重叠的补丁嵌入,(2) 进料向前网络,(3) 线性复杂关注层。有了这些简单的修改,我们的PVTv2在分类、检测和分割方面大大改进了PVTV1。此外,PVTv2的绩效比最近的工程(包括Swin变异器)要好。我们希望这项工作将使最先进的视觉变异器研究更容易获得。代码可在https://github.com/whai362/PVT上查阅。

0
下载
关闭预览

相关内容

Pyramid is a small, fast, down-to-earth Python web application development framework.
专知会员服务
30+阅读 · 2021年7月30日
最新《Transformers模型》教程,64页ppt
专知会员服务
325+阅读 · 2020年11月26日
一份简单《图神经网络》教程,28页ppt
专知会员服务
127+阅读 · 2020年8月2日
TorchSeg:基于pytorch的语义分割算法开源了
极市平台
20+阅读 · 2019年1月28日
条件GAN重大改进!cGANs with Projection Discriminator
CreateAMind
8+阅读 · 2018年2月7日
【推荐】全卷积语义分割综述
机器学习研究会
19+阅读 · 2017年8月31日
Arxiv
0+阅读 · 2021年8月25日
VIP会员
相关VIP内容
相关论文
Top
微信扫码咨询专知VIP会员