Speech Processing for Machine Learning: Filter banks, Mel-Frequency Cepstral Coefficients (MFCCs) and What's In-BetweenSpeech processing plays an important role in any speech system whether its Aut...
Deep Speaker是百度旗下研发的一款基于声纹的说话人识别系统的论文。这是一种基于深度神经网络的说话人识别系统,该系统将语音映射到超球面上,利用余弦相似度来确定说话人的相似度。使用ResCNN和GRU架构进行实验,提取声学特征,然后使用均值池来生成对话层面的说话人嵌入,并使用基于余弦相似度的三重损失函数进行训练。