成为VIP会员查看完整内容
VIP会员码认证
首页
主题
会员
服务
注册
·
登录
多峰值
关注
0
综合
百科
VIP
热门
动态
论文
精华
CCFQA: A Benchmark for Cross-Lingual and Cross-Modal Speech and Text Factuality Evaluation
Arxiv
0+阅读 · 12月1日
Audio-Thinker: Guiding Audio Language Model When and How to Think via Reinforcement Learning
Arxiv
0+阅读 · 11月4日
R4: Retrieval-Augmented Reasoning for Vision-Language Models in 4D Spatio-Temporal Space
Arxiv
0+阅读 · 12月17日
A multimodal Bayesian Network for symptom-level depression and anxiety prediction from voice and speech data
Arxiv
0+阅读 · 12月8日
Evaluating Perspectival Biases in Cross-Modal Retrieval
Arxiv
0+阅读 · 11月3日
Minimal Clips, Maximum Salience: Long Video Summarization via Key Moment Extraction
Arxiv
0+阅读 · 12月12日
Pelican-VL 1.0: A Foundation Brain Model for Embodied Intelligence
Arxiv
0+阅读 · 11月14日
Gentle Object Retraction in Dense Clutter Using Multimodal Force Sensing and Imitation Learning
Arxiv
0+阅读 · 11月30日
Any2Caption:Interpreting Any Condition to Caption for Controllable Video Generation
Arxiv
0+阅读 · 12月12日
EMHI: A Multimodal Egocentric Human Motion Dataset with HMD and Body-Worn IMUs
Arxiv
0+阅读 · 11月6日
The World is Your Canvas: Painting Promptable Events with Reference Images, Trajectories, and Text
Arxiv
1+阅读 · 12月18日
Autoregressive Styled Text Image Generation, but Make it Reliable
Arxiv
0+阅读 · 11月28日
Divide, then Ground: Adapting Frame Selection to Query Types for Long-Form Video Understanding
Arxiv
0+阅读 · 12月3日
GContextFormer: A global context-aware hybrid multi-head attention approach with scaled additive aggregation for multimodal trajectory prediction
Arxiv
0+阅读 · 11月24日
InfiGUI-G1: Advancing GUI Grounding with Adaptive Exploration Policy Optimization
Arxiv
0+阅读 · 12月8日
参考链接
提示
微信扫码
咨询专知VIP会员与技术项目合作
(加微信请备注: "专知")
微信扫码咨询专知VIP会员
Top