语音识别论文 - 专知

会员服务 ·

语音识别

语音识别是计算机科学和计算语言学的一个跨学科子领域，它发展了一些方法和技术，使计算机可以将口语识别和翻译成文本。它也被称为自动语音识别（ASR），计算机语音识别或语音转文本（STT）。它整合了计算机科学，语言学和计算机工程领域的知识和研究。

A Differentiable Alignment Framework for Sequence-to-Sequence Modeling via Optimal Transport

Arxiv

0+阅读 · 11月21日

E2E-VGuard: Adversarial Prevention for Production LLM-based End-To-End Speech Synthesis

Arxiv

0+阅读 · 11月10日

Open ASR Leaderboard: Towards Reproducible and Transparent Multilingual Speech Recognition Evaluation

Arxiv

0+阅读 · 12月10日

Adaptive Edge-Cloud Inference for Speech-to-Action Systems Using ASR and Large Language Models

Arxiv

0+阅读 · 12月18日

Adaptive Edge-Cloud Inference for Speech-to-Action Systems Using ASR and Large Language Models (ASTA)

Arxiv

0+阅读 · 12月14日

DIFFA: Large Language Diffusion Models Can Listen and Understand

Arxiv

0+阅读 · 11月10日

KIT's Low-resource Speech Translation Systems for IWSLT2025: System Enhancement with Synthetic Data and Model Regularization

Arxiv

0+阅读 · 11月2日

Reproducing and Dissecting Denoising Language Models for Speech Recognition

Arxiv

0+阅读 · 12月15日

Context-Aware Whisper for Arabic ASR Under Linguistic Varieties

Arxiv

0+阅读 · 11月24日

Enabling Differentially Private Federated Learning for Speech Recognition: Benchmarks, Adaptive Optimizers and Gradient Clipping

Arxiv

0+阅读 · 11月25日

System X: A Mobile Voice-Based AI System for EMR Generation and Clinical Decision Support in Low-Resource Maternal Healthcare

Arxiv

0+阅读 · 12月13日

Morphologically-Informed Tokenizers for Languages with Non-Concatenative Morphology: A case study of Yoloxóchtil Mixtec ASR

Arxiv

0+阅读 · 12月5日

Aligning ASR Evaluation with Human and LLM Judgments: Intelligibility Metrics Using Phonetic, Semantic, and NLI Approaches

Arxiv

0+阅读 · 12月11日

Omni-Router: Sharing Routing Decisions in Sparse Mixture-of-Experts for Speech Recognition

Arxiv

0+阅读 · 11月5日

Scalable Frameworks for Real-World Audio-Visual Speech Recognition

Arxiv

0+阅读 · 12月16日

参考链接

微信扫码咨询专知VIP会员