Voice Conversion (VC) emerged as a significant domain of research in the field of speech synthesis in recent years due to its emerging application in voice-assisting technology, automated movie dubbing, and speech-to-singing conversion to name a few. VC basically deals with the conversion of vocal style of one speaker to another speaker while keeping the linguistic contents unchanged. VC task is performed through a three-stage pipeline consisting of speech analysis, speech feature mapping, and speech reconstruction. Nowadays the Generative Adversarial Network (GAN) models are widely in use for speech feature mapping from source to target speaker. In this paper, we propose an adaptive learning-based GAN model called ALGAN-VC for an efficient one-to-one VC of speakers. Our ALGAN-VC framework consists of some approaches to improve the speech quality and voice similarity between source and target speakers. The model incorporates a Dense Residual Network (DRN) like architecture to the generator network for efficient speech feature learning, for source to target speech feature conversion. We also integrate an adaptive learning mechanism to compute the loss function for the proposed model. Moreover, we use a boosted learning rate approach to enhance the learning capability of the proposed model. The model is trained by using both forward and inverse mapping simultaneously for a one-to-one VC. The proposed model is tested on Voice Conversion Challenge (VCC) 2016, 2018, and 2020 datasets as well as on our self-prepared speech dataset, which has been recorded in Indian regional languages and in English. A subjective and objective evaluation of the generated speech samples indicated that the proposed model elegantly performed the voice conversion task by achieving high speaker similarity and adequate speech quality.


翻译:近年来,语音转换(VC)是语音合成领域的一个重要研究领域,近年来,由于在语音协助技术、自动电影调试和语音对声转换中正在应用语音合成领域,成为语音合成领域的一个重要领域。 VC基本上处理将一名发言者的声调风格转换为另一名发言者,同时保持语言内容不变。 VC的任务是通过由语音分析、语音特征绘图和语音重建组成的三阶段管道执行的。现在,General Aversarial 网络模型(GAN)广泛用于从源头到目标发言者的语音特征绘图。在本文中,我们提议采用一个适应性学习性GAN-VC模型,称为ALGAN-VC,用于高效的一对一对一的语音转换。 我们的ALGAN-VC框架主要处理将一个声音风格转换转换转换转换为另一个发言者的语音转换。 我们的ALGAN-VC框架包括一些方法,以提高语言语言语言的语音质量和声音存储率。 模型包含一个结构,用于高效的语音语音特征学习,用于针对语言的语音转换任务。 我们还整合了拟议模型的自我转换模式,通过一个经过培训的版本学习能力,通过一个指标升级的方法,通过一个升级到一个。

0
下载
关闭预览

相关内容

自适应学习,也被称为自适应教学,是使用计算机算法来协调与学习者的互动,并提供定制学习资源和学习活动来解决每个学习者的独特需求的教育方法。在专业的学习情境,个人可以“试验出”一些训练方式,以确保教学内容的更新。根据学生的学习需要,计算机生成适应其特点的教育材料,包括他们对问题的回答和完成的任务和经验。该技术涵盖了各个研究领域和它们的衍生,包括计算机科学、人工智能、心理测验、教育学、心理学和脑科学。
100+篇《自监督学习(Self-Supervised Learning)》论文最新合集
专知会员服务
165+阅读 · 2020年3月18日
Stabilizing Transformers for Reinforcement Learning
专知会员服务
60+阅读 · 2019年10月17日
[综述]深度学习下的场景文本检测与识别
专知会员服务
78+阅读 · 2019年10月10日
【SIGGRAPH2019】TensorFlow 2.0深度学习计算机图形学应用
专知会员服务
41+阅读 · 2019年10月9日
GAN新书《生成式深度学习》,Generative Deep Learning,379页pdf
专知会员服务
207+阅读 · 2019年9月30日
【资源】语音增强资源集锦
专知
8+阅读 · 2020年7月4日
内涵网络嵌入:Content-rich Network Embedding
我爱读PAMI
4+阅读 · 2019年11月5日
Call for Participation: Shared Tasks in NLPCC 2019
中国计算机学会
5+阅读 · 2019年3月22日
Unsupervised Learning via Meta-Learning
CreateAMind
43+阅读 · 2019年1月3日
语音顶级会议Interspeech2018接受论文列表!
专知
6+阅读 · 2018年6月10日
gan生成图像at 1024² 的 代码 论文
CreateAMind
4+阅读 · 2017年10月31日
Sparsifying Neural Network Connections for Face Recognition
统计学习与视觉计算组
7+阅读 · 2017年6月10日
Arxiv
5+阅读 · 2018年5月21日
Arxiv
5+阅读 · 2018年5月1日
Arxiv
13+阅读 · 2018年1月20日
VIP会员
Top
微信扫码咨询专知VIP会员