Speaker embeddings extracted with deep 2D convolutional neural networks are typically modeled as projections of first and second order statistics of channel-frequency pairs onto a linear layer, using either average or attentive pooling along the time axis. In this paper we examine an alternative pooling method, where pairwise correlations between channels for given frequencies are used as statistics. The method is inspired by style-transfer methods in computer vision, where the style of an image, modeled by the matrix of channel-wise correlations, is transferred to another image, in order to produce a new image having the style of the first and the content of the second. By drawing analogies between image style and speaker characteristics, and between image content and phonetic sequence, we explore the use of such channel-wise correlations features to train a ResNet architecture in an end-to-end fashion. Our experiments on VoxCeleb demonstrate the effectiveness of the proposed pooling method in speaker recognition.


翻译:以深 2D 共变神经网络提取的音响嵌入器通常以线性层的频道频率对对配第一和第二顺序统计数据的预测为模型,使用平均或仔细的集成时间轴。本文我们研究一种替代的集合方法,即将特定频率的频道对等关系用作统计。这种方法受计算机视觉中风格传输方法的启发,将由频道-相交矩阵模型模型制作的图像样式转移到另一张图像,以便产生一种具有第一层和第二层内容风格的新图像。我们通过在图像样式和发言者特点之间以及图像内容和音频序列之间绘制类比,探索如何使用这种频道-线性关联特征,以端到端的方式培训ResNet结构。我们在VoxCeleb上进行的实验展示了拟议组合方法在语音识别中的有效性。

0
下载
关闭预览

相关内容

专知会员服务
29+阅读 · 2021年8月2日
【CVPR2021】CausalVAE: 引入因果结构的解耦表示学习
专知会员服务
37+阅读 · 2021年3月28日
【IJCAJ 2020】多通道神经网络 Multi-Channel Graph Neural Networks
专知会员服务
26+阅读 · 2020年7月19日
专知会员服务
61+阅读 · 2020年3月19日
100+篇《自监督学习(Self-Supervised Learning)》论文最新合集
专知会员服务
165+阅读 · 2020年3月18日
【Google论文】ALBERT:自我监督学习语言表达的精简BERT
专知会员服务
24+阅读 · 2019年11月4日
最新BERT相关论文清单,BERT-related Papers
专知会员服务
53+阅读 · 2019年9月29日
计算机 | 国际会议信息5条
Call4Papers
3+阅读 · 2019年7月3日
Transferring Knowledge across Learning Processes
CreateAMind
29+阅读 · 2019年5月18日
Conditional Batch Normalization 详解
极市平台
4+阅读 · 2019年4月12日
人工智能 | NIPS 2019等国际会议信息8条
Call4Papers
7+阅读 · 2019年3月21日
计算机类 | LICS 2019等国际会议信息7条
Call4Papers
3+阅读 · 2018年12月17日
计算机 | CCF推荐会议信息10条
Call4Papers
5+阅读 · 2018年10月18日
人工智能 | ICAPS 2019等国际会议信息3条
Call4Papers
3+阅读 · 2018年9月28日
Capsule Networks解析
机器学习研究会
11+阅读 · 2017年11月12日
Arxiv
5+阅读 · 2021年2月8日
Arxiv
4+阅读 · 2020年3月27日
Self-Attention Graph Pooling
Arxiv
5+阅读 · 2019年4月17日
Arxiv
8+阅读 · 2018年11月27日
Arxiv
4+阅读 · 2018年6月14日
VIP会员
相关VIP内容
专知会员服务
29+阅读 · 2021年8月2日
【CVPR2021】CausalVAE: 引入因果结构的解耦表示学习
专知会员服务
37+阅读 · 2021年3月28日
【IJCAJ 2020】多通道神经网络 Multi-Channel Graph Neural Networks
专知会员服务
26+阅读 · 2020年7月19日
专知会员服务
61+阅读 · 2020年3月19日
100+篇《自监督学习(Self-Supervised Learning)》论文最新合集
专知会员服务
165+阅读 · 2020年3月18日
【Google论文】ALBERT:自我监督学习语言表达的精简BERT
专知会员服务
24+阅读 · 2019年11月4日
最新BERT相关论文清单,BERT-related Papers
专知会员服务
53+阅读 · 2019年9月29日
相关资讯
计算机 | 国际会议信息5条
Call4Papers
3+阅读 · 2019年7月3日
Transferring Knowledge across Learning Processes
CreateAMind
29+阅读 · 2019年5月18日
Conditional Batch Normalization 详解
极市平台
4+阅读 · 2019年4月12日
人工智能 | NIPS 2019等国际会议信息8条
Call4Papers
7+阅读 · 2019年3月21日
计算机类 | LICS 2019等国际会议信息7条
Call4Papers
3+阅读 · 2018年12月17日
计算机 | CCF推荐会议信息10条
Call4Papers
5+阅读 · 2018年10月18日
人工智能 | ICAPS 2019等国际会议信息3条
Call4Papers
3+阅读 · 2018年9月28日
Capsule Networks解析
机器学习研究会
11+阅读 · 2017年11月12日
相关论文
Arxiv
5+阅读 · 2021年2月8日
Arxiv
4+阅读 · 2020年3月27日
Self-Attention Graph Pooling
Arxiv
5+阅读 · 2019年4月17日
Arxiv
8+阅读 · 2018年11月27日
Arxiv
4+阅读 · 2018年6月14日
Top
微信扫码咨询专知VIP会员