Since its appearance, Visual Question Answering (VQA, i.e. answering a question posed over an image), has always been treated as a classification problem over a set of predefined answers. Despite its convenience, this classification approach poorly reflects the semantics of the problem limiting the answering to a choice between independent proposals, without taking into account the similarity between them (e.g. equally penalizing for answering cat or German shepherd instead of dog). We address this issue by proposing (1) two measures of proximity between VQA classes, and (2) a corresponding loss which takes into account the estimated proximity. This significantly improves the generalization of VQA models by reducing their language bias. In particular, we show that our approach is completely model-agnostic since it allows consistent improvements with three different VQA models. Finally, by combining our method with a language bias reduction approach, we report SOTA-level performance on the challenging VQAv2-CP dataset.


翻译:自其出现以来,视觉问题回答(VQA,即回答一个图像上的问题)一直被视为一组预先定义的答案的分类问题。尽管方便,这种分类方法没有充分反映将回答限于独立提案之间选择的问题的语义,没有考虑到它们之间的相似性(例如,同样惩罚回答猫或德国牧羊人而不是狗)。我们通过提出(1) VQA类之间的近距离两个衡量标准,以及(2)考虑到估计接近程度的相应损失,来解决这一问题。这大大改善了VQA模型的普遍化,减少了其语言偏差。特别是,我们表明,我们的方法是完全模型的,因为它允许与三种不同的VQA模式一致地改进。最后,我们通过将我们的方法与语言偏差减少方法结合起来,报告了具有挑战性的VQAv2-CP数据集的SOTA级业绩。

2
下载
关闭预览

相关内容

视觉问答(Visual Question Answering,VQA),是一种涉及计算机视觉和自然语言处理的学习任务。这一任务的定义如下: A VQA system takes as input an image and a free-form, open-ended, natural-language question about the image and produces a natural-language answer as the output[1]。 翻译为中文:一个VQA系统以一张图片和一个关于这张图片形式自由、开放式的自然语言问题作为输入,以生成一条自然语言答案作为输出。简单来说,VQA就是给定的图片进行问答。

知识荟萃

精品入门和进阶教程、论文和代码整理等

更多

查看相关VIP内容、论文、资讯等
专知会员服务
30+阅读 · 2021年5月6日
专知会员服务
161+阅读 · 2021年3月6日
【哈佛大学商学院课程Fall 2019】机器学习可解释性
专知会员服务
105+阅读 · 2019年10月9日
Hierarchically Structured Meta-learning
CreateAMind
27+阅读 · 2019年5月22日
Capsule Networks解析
机器学习研究会
11+阅读 · 2017年11月12日
Arxiv
9+阅读 · 2016年10月27日
VIP会员
Top
微信扫码咨询专知VIP会员