Speaker embeddings extracted with deep 2D convolutional neural networks are typically modeled as projections of first and second order statistics of channel-frequency pairs onto a linear layer, using either average or attentive pooling along the time axis. In this paper we examine an alternative pooling method, where pairwise correlations between channels for given frequencies are used as statistics. The method is inspired by style-transfer methods in computer vision, where the style of an image, modeled by the matrix of channel-wise correlations, is transferred to another image, in order to produce a new image having the style of the first and the content of the second. By drawing analogies between image style and speaker characteristics, and between image content and phonetic sequence, we explore the use of such channel-wise correlations features to train a ResNet architecture in an end-to-end fashion. Our experiments on VoxCeleb demonstrate the effectiveness of the proposed pooling method in speaker recognition.


翻译:以深 2D 共变神经网络提取的音响嵌入器通常以线性层的频道频率对对配第一和第二顺序统计数据的预测为模型,使用平均或仔细的集成时间轴。本文我们研究一种替代的集合方法,即将特定频率的频道对等关系用作统计。这种方法受计算机视觉中风格传输方法的启发,将由频道-相交矩阵模型模型制作的图像样式转移到另一张图像,以便产生一种具有第一层和第二层内容风格的新图像。我们通过在图像样式和发言者特点之间以及图像内容和音频序列之间绘制类比,探索如何使用这种频道-线性关联特征,以端到端的方式培训ResNet结构。我们在VoxCeleb上进行的实验展示了拟议组合方法在语音识别中的有效性。

0
下载
关闭预览

相关内容

【IJCAJ 2020】多通道神经网络 Multi-Channel Graph Neural Networks
专知会员服务
26+阅读 · 2020年7月19日
专知会员服务
61+阅读 · 2020年3月19日
最新BERT相关论文清单,BERT-related Papers
专知会员服务
53+阅读 · 2019年9月29日
计算机 | 国际会议信息5条
Call4Papers
3+阅读 · 2019年7月3日
Transferring Knowledge across Learning Processes
CreateAMind
29+阅读 · 2019年5月18日
计算机 | CCF推荐会议信息10条
Call4Papers
5+阅读 · 2018年10月18日
人工智能 | ICAPS 2019等国际会议信息3条
Call4Papers
3+阅读 · 2018年9月28日
Arxiv
5+阅读 · 2021年2月8日
Arxiv
4+阅读 · 2020年3月27日
Self-Attention Graph Pooling
Arxiv
5+阅读 · 2019年4月17日
Arxiv
8+阅读 · 2018年11月27日
VIP会员
相关VIP内容
相关资讯
计算机 | 国际会议信息5条
Call4Papers
3+阅读 · 2019年7月3日
Transferring Knowledge across Learning Processes
CreateAMind
29+阅读 · 2019年5月18日
计算机 | CCF推荐会议信息10条
Call4Papers
5+阅读 · 2018年10月18日
人工智能 | ICAPS 2019等国际会议信息3条
Call4Papers
3+阅读 · 2018年9月28日
相关论文
Arxiv
5+阅读 · 2021年2月8日
Arxiv
4+阅读 · 2020年3月27日
Self-Attention Graph Pooling
Arxiv
5+阅读 · 2019年4月17日
Arxiv
8+阅读 · 2018年11月27日
Top
微信扫码咨询专知VIP会员