In this work we introduce a cross modal image retrieval system that allows both text and sketch as input modalities for the query. A cross-modal deep network architecture is formulated to jointly model the sketch and text input modalities as well as the the image output modality, learning a common embedding between text and images and between sketches and images. In addition, an attention model is used to selectively focus the attention on the different objects of the image, allowing for retrieval with multiple objects in the query. Experiments show that the proposed method performs the best in both single and multiple object image retrieval in standard datasets.


翻译:在这项工作中,我们引入了一个交叉模式图像检索系统,允许将文字和草图作为查询的输入模式。设计了一个跨模式深度网络结构,以共同建模草图和文本输入模式以及图像输出模式,学习文本和图像之间以及草图和图像之间的共同嵌入。此外,还使用一个关注模型,有选择地将注意力集中在图像的不同对象上,允许在查询中用多个对象进行检索。实验显示,拟议方法在标准数据集中的单项和多项对象图像检索方面都表现最佳。

5
下载
关闭预览

相关内容

从20世纪70年代开始,有关图像检索的研究就已开始,当时主要是基于文本的图像检索技术(Text-based Image Retrieval,简称TBIR),利用文本描述的方式描述图像的特征,如绘画作品的作者、年代、流派、尺寸等。到90年代以后,出现了对图像的内容语义,如图像的颜色、纹理、布局等进行分析和检索的图像检索技术,即基于内容的图像检索(Content-based Image Retrieval,简称CBIR)技术。CBIR属于基于内容检索(Content-based Retrieval,简称CBR)的一种,CBR中还包括对动态视频、音频等其它形式多媒体信息的检索技术。

知识荟萃

精品入门和进阶教程、论文和代码整理等

更多

查看相关VIP内容、论文、资讯等
专知会员服务
61+阅读 · 2020年3月19日
Hierarchically Structured Meta-learning
CreateAMind
27+阅读 · 2019年5月22日
Transferring Knowledge across Learning Processes
CreateAMind
29+阅读 · 2019年5月18日
Unsupervised Learning via Meta-Learning
CreateAMind
43+阅读 · 2019年1月3日
Hierarchical Imitation - Reinforcement Learning
CreateAMind
19+阅读 · 2018年5月25日
An Analysis of Object Embeddings for Image Retrieval
Arxiv
4+阅读 · 2019年5月28日
Arxiv
3+阅读 · 2018年3月21日
Arxiv
5+阅读 · 2018年3月6日
Arxiv
13+阅读 · 2018年1月11日
VIP会员
相关资讯
相关论文
An Analysis of Object Embeddings for Image Retrieval
Arxiv
4+阅读 · 2019年5月28日
Arxiv
3+阅读 · 2018年3月21日
Arxiv
5+阅读 · 2018年3月6日
Arxiv
13+阅读 · 2018年1月11日
Top
微信扫码咨询专知VIP会员