零-shot语音转换(VC)旨在将源说话人的音色转换为任意未见说话人的音色,同时保持原始的语言内容。尽管基于语言模型或扩散方法的零-shot VC在最近取得了一些进展,但仍然面临一些挑战:1)当前的方法主要集中在适应未见说话人的音色,无法独立地将风格和音色转换为不同的未见说话人;2)这些方法通常由于自回归建模方法或需要多个采样步骤,导致推理速度较慢;3)转换样本的质量和相似度仍然未能完全令人满意。为了解决这些挑战,我们提出了一种名为StableVC的风格可控零-shot VC方法,旨在将音色和风格从源语音转换到不同的未见目标说话人。具体来说,我们将语音分解为语言内容、音色和风格,然后采用条件流匹配模块,根据这些分解的特征重建高质量的梅尔频谱图。为了有效地以零-shot的方式捕捉音色和风格,我们引入了一种新颖的双重注意机制,配合自适应门控,而不是使用传统的特征拼接。凭借这种非自回归设计,StableVC能够高效地捕捉来自不同未见说话人的复杂音色和风格,并以显著高于实时的速度生成高质量的语音。实验表明,我们提出的StableVC在零-shot VC任务中优于最先进的基准系统,并在不同未见说话人的音色和风格控制方面具有灵活性。此外,与自回归和基于扩散的基准方法相比,StableVC的采样速度提高了约25倍和1.65倍。

成为VIP会员查看完整内容
12

相关内容

【AAAI2025】SAIL:面向样本的上下文学习用于文档信息提取
专知会员服务
21+阅读 · 2024年12月24日
【CVPR2024】用于文本到图像生成的判别性探测和调整
专知会员服务
15+阅读 · 2024年3月11日
【NeurIPS2021】ResT:一个有效的视觉识别转换器
专知会员服务
23+阅读 · 2021年10月25日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
11+阅读 · 2012年12月31日
Arxiv
174+阅读 · 2023年4月20日
A Survey of Large Language Models
Arxiv
494+阅读 · 2023年3月31日
VIP会员
相关VIP内容
【AAAI2025】SAIL:面向样本的上下文学习用于文档信息提取
专知会员服务
21+阅读 · 2024年12月24日
【CVPR2024】用于文本到图像生成的判别性探测和调整
专知会员服务
15+阅读 · 2024年3月11日
【NeurIPS2021】ResT:一个有效的视觉识别转换器
专知会员服务
23+阅读 · 2021年10月25日
相关基金
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
11+阅读 · 2012年12月31日
相关论文
微信扫码咨询专知VIP会员