End-to-End Neural Diarization (EEND) systems produce frame-level probabilistic speaker activity estimates, yet since evaluation focuses primarily on Diarization Error Rate (DER), the reliability and calibration of these confidence scores have been largely neglected. When fusing multiple diarization systems, DOVER-Lap remains the only established approach, operating at the segment level with hard decisions. We propose working with continuous probability outputs, which enables more sophisticated calibration and fusion techniques that can leverage model uncertainty and complementary strengths across different architectures. This paper presents the first comprehensive framework for calibrating and fusing EEND models at the probability level. We investigate two output formulations (multilabel and powerset representations) and their impact on calibration and fusion effectiveness. Through extensive experiments on the CallHome two-speaker benchmark, we demonstrate that proper calibration provides substantial improvements even for individual models (up to 19% relative DER reduction), in some cases mitigating the absence of domain adaptation. We reveal that joint calibration in powerset space consistently outperforms independent per-speaker calibration, and that the Fuse-then-Calibrate ordering generally outperforms calibrating individual models before fusion while requiring calibration of only a single combined model. Our best configuration outperforms DOVER-Lap in terms of DER while providing reliable confidence estimates essential for downstream applications. This work proposes best practices for probability-level fusion of EEND systems and demonstrates the advantages of leveraging soft outputs over hard decisions.


翻译:端到端神经日志系统可生成帧级说话人活动概率估计,但由于评估主要聚焦于日志错误率,这些置信度分数的可靠性与校准问题长期被忽视。在融合多个日志系统时,DOVER-Lap仍是目前唯一成熟的方案,其基于片段级硬决策进行融合。本研究提出利用连续概率输出进行融合,从而能够采用更先进的校准与融合技术,充分挖掘不同架构模型的互补优势与不确定性信息。本文首次提出了在概率层面校准与融合端到端神经日志模型的完整框架。我们探究了两种输出形式(多标签表示与幂集表示)及其对校准与融合效果的影响。通过在CallHome双说话人基准数据集上的大量实验表明:适当的校准即使对单一模型也能带来显著性能提升(相对日志错误率最高降低19%),在某些情况下甚至能缓解领域适应缺失带来的影响。我们发现幂集空间的联合校准始终优于独立按说话人校准,且“先融合后校准”的策略通常优于先校准单模型再融合的方式,同时仅需对单一组合模型进行校准。我们的最优配置在日志错误率指标上超越了DOVER-Lap方法,并为下游应用提供了可靠的置信度估计。本研究提出了端到端神经日志系统概率级融合的最佳实践方案,并论证了利用软输出相较于硬决策的显著优势。

0
下载
关闭预览

相关内容

大语言模型的LoRA研究综述
专知会员服务
52+阅读 · 2024年7月17日
临床自然语言处理中的嵌入综述,SECNLP: A survey of embeddings
AAAI 2022 | ProtGNN:自解释图神经网络
专知
10+阅读 · 2022年2月28日
CosFace: Large Margin Cosine Loss for Deep Face Recognition论文笔记
统计学习与视觉计算组
44+阅读 · 2018年4月25日
国家自然科学基金
0+阅读 · 2017年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
VIP会员
相关VIP内容
大语言模型的LoRA研究综述
专知会员服务
52+阅读 · 2024年7月17日
临床自然语言处理中的嵌入综述,SECNLP: A survey of embeddings
相关资讯
AAAI 2022 | ProtGNN:自解释图神经网络
专知
10+阅读 · 2022年2月28日
CosFace: Large Margin Cosine Loss for Deep Face Recognition论文笔记
统计学习与视觉计算组
44+阅读 · 2018年4月25日
相关基金
国家自然科学基金
0+阅读 · 2017年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
Top
微信扫码咨询专知VIP会员