State-of-the-art vision and vision-and-language models rely on large-scale visio-linguistic pretraining for obtaining good performance on a variety of downstream tasks. Generally, such models are often either cross-modal (contrastive) or multi-modal (with earlier fusion) but not both; and they often only target specific modalities or tasks. A promising direction would be to use a single holistic universal model, as a "foundation", that targets all modalities at once -- a true vision and language foundation model should be good at vision tasks, language tasks, and cross- and multi-modal vision and language tasks. We introduce FLAVA as such a model and demonstrate impressive performance on a wide range of 35 tasks spanning these target modalities.


翻译:最先进的愿景和愿景及语言模式依靠大规模语言前期培训,才能在各种下游任务中取得良好业绩,一般而言,这些模式往往是跨模式(交替性)或多模式(与较早的融合性),但并非两者兼而有之;它们往往仅针对特定模式或任务;一个有希望的方向是使用单一的整体通用模式,作为“基础”,同时针对所有模式,真正愿景和语言基础模式应善于执行愿景任务、语言任务以及跨模式和多模式愿景和语言任务;我们采用FLAVA作为模式,在涉及这些目标模式的35项广泛任务上表现出令人印象深刻的业绩。

0
下载
关闭预览

相关内容

最新《Transformers模型》教程,64页ppt
专知会员服务
325+阅读 · 2020年11月26日
[综述]深度学习下的场景文本检测与识别
专知会员服务
78+阅读 · 2019年10月10日
BERT/Transformer/迁移学习NLP资源大列表
专知
19+阅读 · 2019年6月9日
Unsupervised Learning via Meta-Learning
CreateAMind
43+阅读 · 2019年1月3日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
18+阅读 · 2018年12月24日
国家自然科学基金
5+阅读 · 2013年12月31日
国家自然科学基金
1+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
1+阅读 · 2009年12月31日
国家自然科学基金
6+阅读 · 2008年12月31日
Arxiv
3+阅读 · 2022年4月19日
VIP会员
相关资讯
相关基金
国家自然科学基金
5+阅读 · 2013年12月31日
国家自然科学基金
1+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
1+阅读 · 2009年12月31日
国家自然科学基金
6+阅读 · 2008年12月31日
Top
微信扫码咨询专知VIP会员