多峰值论文 - 专知

会员服务 ·

多峰值

CCFQA: A Benchmark for Cross-Lingual and Cross-Modal Speech and Text Factuality Evaluation

Arxiv

0+阅读 · 12月1日

Audio-Thinker: Guiding Audio Language Model When and How to Think via Reinforcement Learning

Arxiv

0+阅读 · 11月4日

R4: Retrieval-Augmented Reasoning for Vision-Language Models in 4D Spatio-Temporal Space

Arxiv

0+阅读 · 12月17日

A multimodal Bayesian Network for symptom-level depression and anxiety prediction from voice and speech data

Arxiv

0+阅读 · 12月8日

Evaluating Perspectival Biases in Cross-Modal Retrieval

Arxiv

0+阅读 · 11月3日

Minimal Clips, Maximum Salience: Long Video Summarization via Key Moment Extraction

Arxiv

0+阅读 · 12月12日

Pelican-VL 1.0: A Foundation Brain Model for Embodied Intelligence

Arxiv

0+阅读 · 11月14日

Gentle Object Retraction in Dense Clutter Using Multimodal Force Sensing and Imitation Learning

Arxiv

0+阅读 · 11月30日

Any2Caption:Interpreting Any Condition to Caption for Controllable Video Generation

Arxiv

0+阅读 · 12月12日

EMHI: A Multimodal Egocentric Human Motion Dataset with HMD and Body-Worn IMUs

Arxiv

0+阅读 · 11月6日

The World is Your Canvas: Painting Promptable Events with Reference Images, Trajectories, and Text

Arxiv

1+阅读 · 12月18日

Autoregressive Styled Text Image Generation, but Make it Reliable

Arxiv

0+阅读 · 11月28日

Divide, then Ground: Adapting Frame Selection to Query Types for Long-Form Video Understanding

Arxiv

0+阅读 · 12月3日

GContextFormer: A global context-aware hybrid multi-head attention approach with scaled additive aggregation for multimodal trajectory prediction

Arxiv

0+阅读 · 11月24日

InfiGUI-G1: Advancing GUI Grounding with Adaptive Exploration Policy Optimization

Arxiv

0+阅读 · 12月8日

参考链接

微信扫码咨询专知VIP会员