【AAAI2025】StableVC：基于条件流匹配的风格可控零样本语音转换 - 专知VIP

会员服务 ·

9

AAAI 2025 · 流匹配（Flow Matching） · 条件流匹配 · 语音转换 ·

2024 年 12 月 15 日

【AAAI2025】StableVC：基于条件流匹配的风格可控零样本语音转换

专知会员服务

专知，提供专业可信的知识分发服务，让认知协作更快更好！

零-shot语音转换（VC）旨在将源说话人的音色转换为任意未见说话人的音色，同时保持原始的语言内容。尽管基于语言模型或扩散方法的零-shot VC在最近取得了一些进展，但仍然面临一些挑战：1）当前的方法主要集中在适应未见说话人的音色，无法独立地将风格和音色转换为不同的未见说话人；2）这些方法通常由于自回归建模方法或需要多个采样步骤，导致推理速度较慢；3）转换样本的质量和相似度仍然未能完全令人满意。为了解决这些挑战，我们提出了一种名为StableVC的风格可控零-shot VC方法，旨在将音色和风格从源语音转换到不同的未见目标说话人。具体来说，我们将语音分解为语言内容、音色和风格，然后采用条件流匹配模块，根据这些分解的特征重建高质量的梅尔频谱图。为了有效地以零-shot的方式捕捉音色和风格，我们引入了一种新颖的双重注意机制，配合自适应门控，而不是使用传统的特征拼接。凭借这种非自回归设计，StableVC能够高效地捕捉来自不同未见说话人的复杂音色和风格，并以显著高于实时的速度生成高质量的语音。实验表明，我们提出的StableVC在零-shot VC任务中优于最先进的基准系统，并在不同未见说话人的音色和风格控制方面具有灵活性。此外，与自回归和基于扩散的基准方法相比，StableVC的采样速度提高了约25倍和1.65倍。

成为VIP会员查看完整内容

12

相关内容

AAAI 2025

【AAAI2025】SAIL：面向样本的上下文学习用于文档信息提取

【AAAI2025】SAIL：面向样本的上下文学习用于文档信息提取

专知会员服务

21+阅读 · 2024年12月24日

【NeurIPS2024】通过分解编码和条件控制增强文本到视频生成中的运动效果

【NeurIPS2024】通过分解编码和条件控制增强文本到视频生成中的运动效果

专知会员服务

14+阅读 · 2024年11月2日

【CVPR2024】利用大型语言模型进行无需训练的视频异常检测

【CVPR2024】利用大型语言模型进行无需训练的视频异常检测

专知会员服务

21+阅读 · 2024年4月2日

【CVPR2024】用于文本到图像生成的判别性探测和调整

【CVPR2024】用于文本到图像生成的判别性探测和调整

专知会员服务

15+阅读 · 2024年3月11日

【NeurIPS2021】ResT:一个有效的视觉识别转换器

【NeurIPS2021】ResT:一个有效的视觉识别转换器

专知会员服务

23+阅读 · 2021年10月25日

【商汤科技】可变形Transformers端到端对象检测，Deformable DETR

【商汤科技】可变形Transformers端到端对象检测，Deformable DETR

专知

18+阅读 · 2020年10月11日

【KDD2020】XGNN-可解释图神经网络，从模型级解释构建可信赖GNN

【KDD2020】XGNN-可解释图神经网络，从模型级解释构建可信赖GNN

专知

17+阅读 · 2020年6月7日

【IJCAI2020】基于生成对抗模仿学习的多模态模仿学习算法框架

【IJCAI2020】基于生成对抗模仿学习的多模态模仿学习算法框架

专知

20+阅读 · 2020年5月26日

ICCV 2019 开源论文 | 适用于视频分割的全新Attention机制

ICCV 2019 开源论文 | 适用于视频分割的全新Attention机制

PaperWeekly

10+阅读 · 2019年11月9日

【Github】nlp-tutorial：TensorFlow 和 PyTorch 实现各种NLP模型

【Github】nlp-tutorial：TensorFlow 和 PyTorch 实现各种NLP模型

AINLP

14+阅读 · 2019年9月4日

基于DASH的交互式三维视频系统建模

国家自然科学基金

1+阅读 · 2015年12月31日

自由视点三维视频中纹理-深度图像联合建模及应用

国家自然科学基金

0+阅读 · 2015年12月31日

海量Web用户生成内容物化关键技术

国家自然科学基金

2+阅读 · 2014年12月31日

语义关联的地理视频数据自适应组织方法

国家自然科学基金

1+阅读 · 2014年12月31日

语音识别中的稀疏性深度学习

国家自然科学基金

11+阅读 · 2012年12月31日

Is ChatGPT a Good Recommender? A Preliminary Study

Arxiv

174+阅读 · 2023年4月20日

NeuralField-LDM: Scene Generation with Hierarchical Latent Diffusion Models

Arxiv

42+阅读 · 2023年4月19日

A Comprehensive Survey on Deep Graph Representation Learning

Arxiv

106+阅读 · 2023年4月11日

On Efficient Training of Large-Scale Deep Learning Models: A Literature Review

Arxiv

224+阅读 · 2023年4月7日

A Survey of Large Language Models

A Survey of Large Language Models

Arxiv

494+阅读 · 2023年3月31日

VIP会员

相关主题

流匹配（Flow Matching）

条件流匹配

相关VIP内容

【AAAI2025】SAIL：面向样本的上下文学习用于文档信息提取

【AAAI2025】SAIL：面向样本的上下文学习用于文档信息提取

专知会员服务

21+阅读 · 2024年12月24日

【NeurIPS2024】通过分解编码和条件控制增强文本到视频生成中的运动效果

【NeurIPS2024】通过分解编码和条件控制增强文本到视频生成中的运动效果

专知会员服务

14+阅读 · 2024年11月2日

【CVPR2024】利用大型语言模型进行无需训练的视频异常检测

【CVPR2024】利用大型语言模型进行无需训练的视频异常检测

专知会员服务

21+阅读 · 2024年4月2日

【CVPR2024】用于文本到图像生成的判别性探测和调整

【CVPR2024】用于文本到图像生成的判别性探测和调整

专知会员服务

15+阅读 · 2024年3月11日

【NeurIPS2021】ResT:一个有效的视觉识别转换器

【NeurIPS2021】ResT:一个有效的视觉识别转换器

专知会员服务

23+阅读 · 2021年10月25日

热门VIP内容

开通专知VIP会员享更多权益服务

【博士论文】面向真实世界音视联合语音识别的可扩展框架

《通过仿真与开源数据提升战略决策：机遇与局限》最新报告

【AAAI2026】善始则事半功倍：基于前缀优化的大语言模型推理强化学习

评估大语言模型在科学发现中的作用

相关资讯

【商汤科技】可变形Transformers端到端对象检测，Deformable DETR

【商汤科技】可变形Transformers端到端对象检测，Deformable DETR

专知

18+阅读 · 2020年10月11日

【KDD2020】XGNN-可解释图神经网络，从模型级解释构建可信赖GNN

【KDD2020】XGNN-可解释图神经网络，从模型级解释构建可信赖GNN

专知

17+阅读 · 2020年6月7日

【IJCAI2020】基于生成对抗模仿学习的多模态模仿学习算法框架

【IJCAI2020】基于生成对抗模仿学习的多模态模仿学习算法框架

专知

20+阅读 · 2020年5月26日

ICCV 2019 开源论文 | 适用于视频分割的全新Attention机制

ICCV 2019 开源论文 | 适用于视频分割的全新Attention机制

PaperWeekly

10+阅读 · 2019年11月9日

【Github】nlp-tutorial：TensorFlow 和 PyTorch 实现各种NLP模型

【Github】nlp-tutorial：TensorFlow 和 PyTorch 实现各种NLP模型

AINLP

14+阅读 · 2019年9月4日

相关基金

基于DASH的交互式三维视频系统建模

国家自然科学基金

1+阅读 · 2015年12月31日

自由视点三维视频中纹理-深度图像联合建模及应用

国家自然科学基金

0+阅读 · 2015年12月31日

海量Web用户生成内容物化关键技术

国家自然科学基金

2+阅读 · 2014年12月31日

语义关联的地理视频数据自适应组织方法

国家自然科学基金

1+阅读 · 2014年12月31日

语音识别中的稀疏性深度学习

国家自然科学基金

11+阅读 · 2012年12月31日

相关论文

Is ChatGPT a Good Recommender? A Preliminary Study

Arxiv

174+阅读 · 2023年4月20日

NeuralField-LDM: Scene Generation with Hierarchical Latent Diffusion Models

Arxiv

42+阅读 · 2023年4月19日

A Comprehensive Survey on Deep Graph Representation Learning

Arxiv

106+阅读 · 2023年4月11日

On Efficient Training of Large-Scale Deep Learning Models: A Literature Review

Arxiv

224+阅读 · 2023年4月7日

A Survey of Large Language Models

A Survey of Large Language Models

Arxiv

494+阅读 · 2023年3月31日

微信扫码咨询专知VIP会员