图像字幕论文 - 专知

会员服务 ·

图像字幕

图像字幕（Image Captioning）,是指从图像生成文本描述的过程，主要根据图像中物体和物体的动作。

Think Twice Before You Judge: Mixture of Dual Reasoning Experts for Multimodal Sarcasm Detection

Arxiv

0+阅读 · 10月29日

Transformers in Medicine: Improving Vision-Language Alignment for Medical Image Captioning

Arxiv

0+阅读 · 10月29日

MsEdF: A Multi-stream Encoder-decoder Framework for Remote Sensing Image Captioning

Arxiv

0+阅读 · 10月28日

MsEdF: A Multi-stream Encoder-decoder Framework for Remote Sensing Image Captioning

Arxiv

0+阅读 · 10月22日

AFRICAPTION: Establishing a New Paradigm for Image Captioning in African Languages

Arxiv

0+阅读 · 10月20日

RePIC: Reinforced Post-Training for Personalizing Multi-Modal Language Models

Arxiv

0+阅读 · 10月10日

Improving Image Captioning Descriptiveness by Ranking and LLM-based Fusion

Arxiv

0+阅读 · 10月10日

Continual Learning for Image Captioning through Improved Image-Text Alignment

Arxiv

0+阅读 · 10月7日

ZoDIAC: Zoneout Dropout Injection Attention Calculation

Arxiv

0+阅读 · 9月30日

Describe Anything in Medical Images

Arxiv

0+阅读 · 5月9日

ComicsPAP: understanding comic strips by picking the correct panel

Arxiv

0+阅读 · 7月30日

A Deep Learning Approach for Augmenting Perceptional Understanding of Histopathology Images

Arxiv

0+阅读 · 7月23日

Image Embedding Sampling Method for Diverse Captioning

Arxiv

0+阅读 · 9月4日

A Conformal Risk Control Framework for Granular Word Assessment and Uncertainty Calibration of CLIPScore Quality Estimates

Arxiv

0+阅读 · 6月2日

RS-RAG: Bridging Remote Sensing Imagery and Comprehensive Knowledge with a Multi-Modal Dataset and Retrieval-Augmented Generation Model

Arxiv

0+阅读 · 4月7日

参考链接

微信扫码咨询专知VIP会员