视觉和语言在生成智能中起着至关重要的作用。因此,在过去的几年中,大量的研究致力于图像描述,即用句法和语义上有意义的句子描述图像的任务。从2015年开始,该任务通常使用由可视化编码步骤和用于文本生成的语言模型组成的流程来解决。在这些年里,这两个组件通过开发对象区域、属性和关系以及引入多模态连接、充分关注的方法和类似BERT的早期融合策略得到了相当大的发展。然而,尽管已经取得了令人印象深刻的成果,但关于图像描述的研究还没有得出一个结论性的答案。这项工作旨在提供图像描述方法的全面概述和分类,从视觉编码和文本生成到训练策略,使用的数据集和评估指标。在这方面,我们定量比较了许多相关的最先进的方法,以确定在图像描述架构和训练策略中最具影响力的技术创新。此外,本文还分析和讨论了该问题的许多变体及其面临的挑战。这项工作的最终目标是作为一个工具来理解现有的最先进的技术,并强调计算机视觉和自然语言处理可以找到最佳协同的未来研究方向。

成为VIP会员查看完整内容
24

相关内容

IEEE模式分析和机器智能期刊TPAMI(IEEE Trans on Pattern Analysis and Machine Intelligence)出版了有关计算机视觉和图像理解的所有传统领域,模式分析和识别的所有传统领域以及机器智能的选定领域的文章,其中特别强调了用于模式分析的机器学习。还涵盖了诸如可视搜索,文档和手写分析,医学图像分析,视频和图像序列分析,基于内容的图像和视频检索,面部和手势识别以及相关的专用硬件和/或软件体系结构等技术领域。 官网地址:http://dblp.uni-trier.de/db/journals/pami/
图像描述生成研究进展
专知
1+阅读 · 2021年3月29日
深度学习目标检测算法综述
AI研习社
25+阅读 · 2019年2月1日
基于深度学习的NLP 32页最新进展综述,190篇参考文献
人工智能学家
28+阅读 · 2018年12月4日
Image Captioning 36页最新综述, 161篇参考文献
专知
90+阅读 · 2018年10月23日
国家自然科学基金
4+阅读 · 2013年12月31日
国家自然科学基金
1+阅读 · 2012年12月31日
国家自然科学基金
2+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
国家自然科学基金
1+阅读 · 2009年12月31日
Arxiv
1+阅读 · 2022年4月15日
Arxiv
15+阅读 · 2021年7月14日
Arxiv
16+阅读 · 2021年1月27日
Arxiv
17+阅读 · 2020年11月15日
A Survey on Deep Transfer Learning
Arxiv
11+阅读 · 2018年8月6日
VIP会员
相关资讯
图像描述生成研究进展
专知
1+阅读 · 2021年3月29日
深度学习目标检测算法综述
AI研习社
25+阅读 · 2019年2月1日
基于深度学习的NLP 32页最新进展综述,190篇参考文献
人工智能学家
28+阅读 · 2018年12月4日
Image Captioning 36页最新综述, 161篇参考文献
专知
90+阅读 · 2018年10月23日
相关基金
国家自然科学基金
4+阅读 · 2013年12月31日
国家自然科学基金
1+阅读 · 2012年12月31日
国家自然科学基金
2+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
国家自然科学基金
1+阅读 · 2009年12月31日
相关论文
Arxiv
1+阅读 · 2022年4月15日
Arxiv
15+阅读 · 2021年7月14日
Arxiv
16+阅读 · 2021年1月27日
Arxiv
17+阅读 · 2020年11月15日
A Survey on Deep Transfer Learning
Arxiv
11+阅读 · 2018年8月6日
微信扫码咨询专知VIP会员