Vision论文 - 专知

会员服务 ·

Vision

Generative Semantic Coding for Ultra-Low Bitrate Visual Communication and Analysis

Generative Semantic Coding for Ultra-Low Bitrate Visual Communication and Analysis

Arxiv

0+阅读 · 10月31日

Sparse Model Inversion: Efficient Inversion of Vision Transformers for Data-Free Applications

Arxiv

0+阅读 · 10月31日

CoMViT: An Efficient Vision Backbone for Supervised Classification in Medical Imaging

CoMViT: An Efficient Vision Backbone for Supervised Classification in Medical Imaging

Arxiv

0+阅读 · 10月31日

Integrating Video and Text: A Balanced Approach to Multimodal Summary Generation and Evaluation

Arxiv

0+阅读 · 10月31日

Semantic Alignment and Reinforcement for Data-Free Quantization of Vision Transformers

Arxiv

0+阅读 · 10月31日

BALR-SAM: Boundary-Aware Low-Rank Adaptation of SAM for Resource-Efficient Medical Image Segmentation

BALR-SAM: Boundary-Aware Low-Rank Adaptation of SAM for Resource-Efficient Medical Image Segmentation

Arxiv

0+阅读 · 10月31日

Sim2Real Diffusion: Leveraging Foundation Vision Language Models for Adaptive Automated Driving

Arxiv

0+阅读 · 10月31日

Vision Transformer for Robust Occluded Person Reidentification in Complex Surveillance Scenes

Vision Transformer for Robust Occluded Person Reidentification in Complex Surveillance Scenes

Arxiv

0+阅读 · 10月31日

LV-UNet: A Lightweight and Vanilla Model for Medical Image Segmentation

LV-UNet: A Lightweight and Vanilla Model for Medical Image Segmentation

Arxiv

0+阅读 · 10月31日

Common Task Framework For a Critical Evaluation of Scientific Machine Learning Algorithms

Arxiv

0+阅读 · 10月31日

SteerVLM: Robust Model Control through Lightweight Activation Steering for Vision Language Models

Arxiv

0+阅读 · 10月30日

Dynamic Context-Aware Scene Reasoning Using Vision-Language Alignment in Zero-Shot Real-World Scenarios

Dynamic Context-Aware Scene Reasoning Using Vision-Language Alignment in Zero-Shot Real-World Scenarios

Arxiv

0+阅读 · 10月30日

Improving Classification of Occluded Objects through Scene Context

Arxiv

0+阅读 · 10月30日

Emu3.5: Native Multimodal Models are World Learners

Arxiv

0+阅读 · 10月30日

A Hybrid Framework Bridging CNN and ViT based on Theory of Evidence for Diabetic Retinopathy Grading

Arxiv

0+阅读 · 10月30日

参考链接

微信扫码咨询专知VIP会员