成为VIP会员查看完整内容
VIP会员码认证
首页
主题
会员
服务
注册
·
登录
语音识别
关注
753
语音识别是计算机科学和计算语言学的一个跨学科子领域,它发展了一些方法和技术,使计算机可以将口语识别和翻译成文本。 它也被称为自动语音识别(ASR),计算机语音识别或语音转文本(STT)。它整合了计算机科学,语言学和计算机工程领域的知识和研究。
综合
百科
VIP
热门
动态
论文
精华
A Differentiable Alignment Framework for Sequence-to-Sequence Modeling via Optimal Transport
Arxiv
0+阅读 · 11月21日
E2E-VGuard: Adversarial Prevention for Production LLM-based End-To-End Speech Synthesis
Arxiv
0+阅读 · 11月10日
Open ASR Leaderboard: Towards Reproducible and Transparent Multilingual Speech Recognition Evaluation
Arxiv
0+阅读 · 12月10日
Adaptive Edge-Cloud Inference for Speech-to-Action Systems Using ASR and Large Language Models
Arxiv
0+阅读 · 12月18日
Adaptive Edge-Cloud Inference for Speech-to-Action Systems Using ASR and Large Language Models (ASTA)
Arxiv
0+阅读 · 12月14日
DIFFA: Large Language Diffusion Models Can Listen and Understand
Arxiv
0+阅读 · 11月10日
KIT's Low-resource Speech Translation Systems for IWSLT2025: System Enhancement with Synthetic Data and Model Regularization
Arxiv
0+阅读 · 11月2日
Reproducing and Dissecting Denoising Language Models for Speech Recognition
Arxiv
0+阅读 · 12月15日
Context-Aware Whisper for Arabic ASR Under Linguistic Varieties
Arxiv
0+阅读 · 11月24日
Enabling Differentially Private Federated Learning for Speech Recognition: Benchmarks, Adaptive Optimizers and Gradient Clipping
Arxiv
0+阅读 · 11月25日
System X: A Mobile Voice-Based AI System for EMR Generation and Clinical Decision Support in Low-Resource Maternal Healthcare
Arxiv
0+阅读 · 12月13日
Morphologically-Informed Tokenizers for Languages with Non-Concatenative Morphology: A case study of Yoloxóchtil Mixtec ASR
Arxiv
0+阅读 · 12月5日
Aligning ASR Evaluation with Human and LLM Judgments: Intelligibility Metrics Using Phonetic, Semantic, and NLI Approaches
Arxiv
0+阅读 · 12月11日
Omni-Router: Sharing Routing Decisions in Sparse Mixture-of-Experts for Speech Recognition
Arxiv
0+阅读 · 11月5日
Scalable Frameworks for Real-World Audio-Visual Speech Recognition
Arxiv
0+阅读 · 12月16日
参考链接
提示
微信扫码
咨询专知VIP会员与技术项目合作
(加微信请备注: "专知")
微信扫码咨询专知VIP会员
Top