目前已经提出了几种支持单阶段训练和并行采样的端到端文本语音(TTS)模型,但它们的样本质量与两阶段TTS系统不匹配。在这项工作中,我们提出了一种并行的端到端TTS方法,它比目前的两阶段模型产生了更自然的声音。我们的方法采用了增加了规范化流程的变分推理和对抗性训练过程,提高了生成建模的表达能力。我们也提出一个随机的持续时间预测器来合成不同节奏的语音输入文本。通过对潜在变量的不确定性建模和随机持续时间预测,我们的方法表达了自然的一对多关系,在这种关系中,文本输入可以以不同的音高和节奏以多种方式表达。对LJ Speech(一个单独的说话人数据集)的主观评价(平均意见得分,或MOS)表明,我们的方法比最好的公开可用的TTS系统表现更好,达到了与ground truth相媲美的MOS。

https://www.zhuanzhi.ai/paper/9b9aaf2367201ce21477fde317d5b78f

成为VIP会员查看完整内容
10

相关内容

专知会员服务
37+阅读 · 2021年7月17日
专知会员服务
38+阅读 · 2021年6月3日
专知会员服务
51+阅读 · 2021年5月19日
专知会员服务
82+阅读 · 2021年5月10日
FastSpeech语音合成系统技术升级,微软联合浙大提出FastSpeech2
微软研究院AI头条
4+阅读 · 2020年6月23日
【谷歌推出TFGAN】开源的轻量级生成对抗网络库
GAN生成式对抗网络
3+阅读 · 2017年12月16日
Arxiv
0+阅读 · 2021年8月20日
Phase-aware Speech Enhancement with Deep Complex U-Net
Arxiv
11+阅读 · 2018年3月23日
VIP会员
相关VIP内容
专知会员服务
37+阅读 · 2021年7月17日
专知会员服务
38+阅读 · 2021年6月3日
专知会员服务
51+阅读 · 2021年5月19日
专知会员服务
82+阅读 · 2021年5月10日
微信扫码咨询专知VIP会员