摘要: 基于视觉和语言的跨媒体问答与推理是人工智能领域的研究热点之一,其目的是基于给定的视觉内容和相关问题,模型能够返回正确的答案。随着深度学习的飞速发展及其在计算机视觉和自然语言处理领域的广泛应用,基于视觉和语言的跨媒体问答与推理也取得了较快的发展。文中首先系统地梳理了当前基于视觉和语言的跨媒体问答与推理的相关工作,具体介绍了基于图像的视觉问答与推理、基于视频的视觉问答与推理以及基于视觉常识推理模型与算法的研究进展,并将基于图像的视觉问答与推理细分为基于多模态融合、基于注意力机制和基于推理3类,将基于视觉常识推理细分为基于推理和基于预训练2类;然后总结了目前常用的问答与推理数据集,以及代表性的问答与推理模型在这些数据集上的实验结果;最后展望了基于视觉和语言的跨媒体问答与推理的未来发展方向。

http://www.jsjkx.com/CN/10.11896/jsjkx.201100176

成为VIP会员查看完整内容
32

相关内容

跨媒体分析与推理技术研究综述
专知会员服务
70+阅读 · 2021年3月11日
专知会员服务
67+阅读 · 2020年12月24日
专知会员服务
46+阅读 · 2020年12月4日
稀缺资源语言神经网络机器翻译研究综述
专知会员服务
27+阅读 · 2020年12月2日
多模态视觉语言表征学习研究综述
专知
27+阅读 · 2020年12月3日
多模态深度学习综述,18页pdf
专知
50+阅读 · 2020年3月29日
基于深度学习的NLP 32页最新进展综述,190篇参考文献
人工智能学家
28+阅读 · 2018年12月4日
【优青论文】视觉问答技术研究
计算机研究与发展
13+阅读 · 2018年9月21日
Arxiv
8+阅读 · 2021年2月1日
VIP会员
相关VIP内容
跨媒体分析与推理技术研究综述
专知会员服务
70+阅读 · 2021年3月11日
专知会员服务
67+阅读 · 2020年12月24日
专知会员服务
46+阅读 · 2020年12月4日
稀缺资源语言神经网络机器翻译研究综述
专知会员服务
27+阅读 · 2020年12月2日
相关资讯
多模态视觉语言表征学习研究综述
专知
27+阅读 · 2020年12月3日
多模态深度学习综述,18页pdf
专知
50+阅读 · 2020年3月29日
基于深度学习的NLP 32页最新进展综述,190篇参考文献
人工智能学家
28+阅读 · 2018年12月4日
【优青论文】视觉问答技术研究
计算机研究与发展
13+阅读 · 2018年9月21日
微信扫码咨询专知VIP会员