成为VIP会员查看完整内容
VIP会员码认证
首页
主题
会员
服务
注册
·
登录
推理延迟
关注
0
综合
百科
VIP
热门
动态
论文
精华
VVS: Accelerating Speculative Decoding for Visual Autoregressive Generation via Partial Verification Skipping
Arxiv
0+阅读 · 11月17日
LLMCache: Layer-Wise Caching Strategies for Accelerated Reuse in Transformer Inference
Arxiv
0+阅读 · 12月18日
A Survey on Collaborating Small and Large Language Models for Performance, Cost-effectiveness, Cloud-edge Privacy, and Trustworthiness
Arxiv
0+阅读 · 11月5日
Fast and Accurate Causal Parallel Decoding using Jacobi Forcing
Arxiv
0+阅读 · 12月16日
Behavior-Equivalent Token: Single-Token Replacement for Long Prompts in LLMs
Arxiv
0+阅读 · 11月28日
Quick Dense Retrievers Consume KALE: Post Training Kullback Leibler Alignment of Embeddings for Asymmetrical dual encoders
Arxiv
0+阅读 · 2023年3月31日
To Asymmetry and Beyond: Structured Pruning of Sequence to Sequence Models for Improved Inference Efficiency
Arxiv
0+阅读 · 2023年4月5日
参考链接
提示
微信扫码
咨询专知VIP会员与技术项目合作
(加微信请备注: "专知")
微信扫码咨询专知VIP会员
Top