于上个月举办的IEEE语音语言会议SLT 2021中,谷歌联合 DeepMind 提出了名为 Synth2Aug 的架构,首次将合成语音用于声纹识别模型的训练,从而大幅提升训练数据的声纹多样性以及文本多样性,实现跨领域的声纹识别。
本文提出了一种新的基于3D卷积神经网络(3D-CNN)结构的语音认证方法。
Deep Speaker是百度旗下研发的一款基于声纹的说话人识别系统的论文。这是一种基于深度神经网络的说话人识别系统,该系统将语音映射到超球面上,利用余弦相似度来确定说话人的相似度。使用ResCNN和GRU架构进行实验,提取声学特征,然后使用均值池来生成对话层面的说话人嵌入,并使用基于余弦相似度的三重损失函数进行训练。