Spoken Dialogue Models (SDMs) have advanced rapidly, yet their ability to sustain genuinely interactive multi-turn conversations remains underexplored, as most benchmarks focus on single-turn exchanges. We introduce Multi-Bench, the first benchmark explicitly designed to evaluate SDMs in multi-turn interactive dialogue with an emphasis on emotional intelligence. Multi-Bench employs a hierarchical structure with a basic track for emotion understanding and reasoning and an advanced track for emotion support and application. It comprises five carefully designed tasks and about 3.2K samples, ranging from emotion recognition to complex reasoning and interactive dialogue, supported by a reproducible evaluation framework. We evaluate six representative SDMs on eight subsets of Multi-Bench. Results show that while current SDMs achieve good performance on basic understanding tasks, they still have room for improvement in advanced multi-turn interactive dialogue and reasoning-related tasks, particularly in emotion awareness and application.


翻译:口语对话模型(SDMs)发展迅速,但其维持真正交互式多轮对话的能力仍未得到充分探索,因为现有基准大多关注单轮交互。我们提出了Multi-Bench,这是首个专门为评估SDMs在多轮交互对话中的表现而设计的基准,重点关注情商能力。Multi-Bench采用分层结构,包含基础赛道(用于情感理解与推理)和高级赛道(用于情感支持与应用)。该基准涵盖五个精心设计的任务和约3.2K个样本,范围从情感识别到复杂推理和交互式对话,并辅以可复现的评估框架。我们在Multi-Bench的八个子集上评估了六个代表性SDMs。结果表明,当前SDMs在基础理解任务上表现良好,但在高级多轮交互对话和推理相关任务(特别是情感感知与应用方面)仍有改进空间。

0
下载
关闭预览

相关内容

【NeurIPS2023】PAXION:在视频-语言基础模型中修补动作知识
UTC: 用于视觉对话的任务间对比学习的统一Transformer
专知会员服务
14+阅读 · 2022年5月4日
专知会员服务
44+阅读 · 2021年7月1日
ICLR'21 | GNN联邦学习的新基准
图与推荐
12+阅读 · 2021年11月15日
【ICML2020】对比多视角表示学习
专知
19+阅读 · 2020年6月28日
国家自然科学基金
17+阅读 · 2017年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
51+阅读 · 2014年12月31日
VIP会员
相关资讯
ICLR'21 | GNN联邦学习的新基准
图与推荐
12+阅读 · 2021年11月15日
【ICML2020】对比多视角表示学习
专知
19+阅读 · 2020年6月28日
相关基金
国家自然科学基金
17+阅读 · 2017年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
51+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员