Speech foundation models have recently achieved remarkable capabilities across a wide range of tasks. However, their evaluation remains disjointed across tasks and model types. Different models excel at distinct aspects of speech processing and thus require different evaluation protocols. This paper proposes a unified taxonomy that addresses the question: Which evaluation is appropriate for which model? The taxonomy defines three orthogonal axes: the evaluation aspect being measured, the model capabilities required to attempt the task, and the task or protocol requirements needed to perform it. We classify a broad set of existing evaluations and benchmarks along these axes, spanning areas such as representation learning, speech generation, and interactive dialogue. By mapping each evaluation to the capabilities a model exposes (e.g., speech generation, real-time processing) and to its methodological demands (e.g., fine-tuning data, human judgment), the taxonomy provides a principled framework for aligning models with suitable evaluation methods. It also reveals systematic gaps, such as limited coverage of prosody, interaction, or reasoning, that highlight priorities for future benchmark design. Overall, this work offers a conceptual foundation and practical guide for selecting, interpreting, and extending evaluations of speech models.


翻译:语音基础模型近期在广泛的任务中展现出卓越的性能。然而,其评估方法在不同任务和模型类型之间仍处于割裂状态。不同模型在语音处理的特定方面表现优异,因此需要不同的评估方案。本文提出一个统一的分类学框架,以回答以下问题:何种评估适用于何种模型?该分类学定义了三个正交维度:所衡量的评估方面、模型尝试任务所需具备的能力,以及执行任务所需的任务或方案要求。我们依据这些维度对现有的大量评估方法和基准测试进行分类,涵盖表征学习、语音生成和交互对话等领域。通过将每个评估映射到模型所展现的能力(例如语音生成、实时处理)及其方法学需求(例如微调数据、人工判断),该分类学为模型与适宜评估方法的匹配提供了原则性框架。同时,它揭示了系统性空白,例如在韵律、交互或推理方面的覆盖不足,这为未来基准测试设计指明了优先方向。总体而言,本研究为语音模型评估的选择、解释和扩展提供了概念基础与实践指南。

0
下载
关闭预览

相关内容

机器学习系统设计系统评估标准
【ICML2023】SEGA:结构熵引导的图对比学习锚视图
专知会员服务
22+阅读 · 2023年5月10日
UTC: 用于视觉对话的任务间对比学习的统一Transformer
专知会员服务
14+阅读 · 2022年5月4日
【ICML2021】因果匹配领域泛化
专知
12+阅读 · 2021年8月12日
【CVPR 2020 Oral】小样本类增量学习
专知
20+阅读 · 2020年6月26日
误差反向传播——CNN
统计学习与视觉计算组
30+阅读 · 2018年7月12日
语料库构建——自然语言理解的基础
计算机研究与发展
11+阅读 · 2017年8月21日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
VIP会员
相关资讯
【ICML2021】因果匹配领域泛化
专知
12+阅读 · 2021年8月12日
【CVPR 2020 Oral】小样本类增量学习
专知
20+阅读 · 2020年6月26日
误差反向传播——CNN
统计学习与视觉计算组
30+阅读 · 2018年7月12日
语料库构建——自然语言理解的基础
计算机研究与发展
11+阅读 · 2017年8月21日
相关基金
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员