本文提出了一个双层级特征协作的Transformer结构,以实现区域特征和网格特征两者的优势互补,并在其中提出了特征几何对齐图来指导特征间的信息交互,从而解决多路特征直接融合带来的语义噪声问题,最终在该任务的线上线下常用公开数据集上均证明了此模型的优势。

成为VIP会员查看完整内容
27

相关内容

图像描述生成(Image Caption)是一个融合计算机视觉、自然语言处理和机器学习的综合问题,它类似于翻译一副图片为一段描述文字。该任务对于人类来说非常容易,但是对于机器却非常具有挑战性,它不仅需要利用模型去理解图片的内容并且还需要用自然语言去表达它们之间的关系。除此之外,模型还需要能够抓住图像的语义信息,并且生成人类可读的句子。

知识荟萃

精品入门和进阶教程、论文和代码整理等

更多

查看相关VIP内容、论文、资讯等
【AAAI2021】生成式Transformer的对比三元组提取
专知会员服务
51+阅读 · 2021年2月7日
【AAAI2021】用于视频描述的语义分组网络
专知会员服务
16+阅读 · 2021年2月3日
AAAI2021 | 学习预训练图神经网络
专知会员服务
116+阅读 · 2021年1月28日
专知会员服务
67+阅读 · 2020年12月24日
The Evolved Transformer
Arxiv
5+阅读 · 2019年1月30日
Arxiv
4+阅读 · 2019年1月1日
Music Transformer
Arxiv
5+阅读 · 2018年12月12日
VIP会员
相关VIP内容
【AAAI2021】生成式Transformer的对比三元组提取
专知会员服务
51+阅读 · 2021年2月7日
【AAAI2021】用于视频描述的语义分组网络
专知会员服务
16+阅读 · 2021年2月3日
AAAI2021 | 学习预训练图神经网络
专知会员服务
116+阅读 · 2021年1月28日
专知会员服务
67+阅读 · 2020年12月24日
相关论文
The Evolved Transformer
Arxiv
5+阅读 · 2019年1月30日
Arxiv
4+阅读 · 2019年1月1日
Music Transformer
Arxiv
5+阅读 · 2018年12月12日
微信扫码咨询专知VIP会员