成为VIP会员查看完整内容
VIP会员码认证
首页
主题
发现
会员
服务
注册
·
登录
图像字幕
关注
14
图像字幕(Image Captioning),是指从图像生成文本描述的过程,主要根据图像中物体和物体的动作。
综合
百科
VIP
热门
动态
论文
精华
Think Twice Before You Judge: Mixture of Dual Reasoning Experts for Multimodal Sarcasm Detection
Arxiv
0+阅读 · 10月29日
Transformers in Medicine: Improving Vision-Language Alignment for Medical Image Captioning
Arxiv
0+阅读 · 10月29日
MsEdF: A Multi-stream Encoder-decoder Framework for Remote Sensing Image Captioning
Arxiv
0+阅读 · 10月28日
MsEdF: A Multi-stream Encoder-decoder Framework for Remote Sensing Image Captioning
Arxiv
0+阅读 · 10月22日
AFRICAPTION: Establishing a New Paradigm for Image Captioning in African Languages
Arxiv
0+阅读 · 10月20日
RePIC: Reinforced Post-Training for Personalizing Multi-Modal Language Models
Arxiv
0+阅读 · 10月10日
Improving Image Captioning Descriptiveness by Ranking and LLM-based Fusion
Arxiv
0+阅读 · 10月10日
Continual Learning for Image Captioning through Improved Image-Text Alignment
Arxiv
0+阅读 · 10月7日
ZoDIAC: Zoneout Dropout Injection Attention Calculation
Arxiv
0+阅读 · 9月30日
Describe Anything in Medical Images
Arxiv
0+阅读 · 5月9日
ComicsPAP: understanding comic strips by picking the correct panel
Arxiv
0+阅读 · 7月30日
A Deep Learning Approach for Augmenting Perceptional Understanding of Histopathology Images
Arxiv
0+阅读 · 7月23日
Image Embedding Sampling Method for Diverse Captioning
Arxiv
0+阅读 · 9月4日
A Conformal Risk Control Framework for Granular Word Assessment and Uncertainty Calibration of CLIPScore Quality Estimates
Arxiv
0+阅读 · 6月2日
RS-RAG: Bridging Remote Sensing Imagery and Comprehensive Knowledge with a Multi-Modal Dataset and Retrieval-Augmented Generation Model
Arxiv
0+阅读 · 4月7日
参考链接
提示
微信扫码
咨询专知VIP会员与技术项目合作
(加微信请备注: "专知")
微信扫码咨询专知VIP会员
Top