声纹领域的数据增强
数据增强(data augmentation)技术始终是机器学习、深度学习领域一个重要的方法,无论对于计算机视觉还是语音领域,一个好的数据增强不仅能克服模型因为数据量不足而产生的过拟合现象,同时通过数据增强可以为数据集添加更多新的数据,增加数据集的多样性,提升模型的鲁棒性通用性。
近年来,语音识别和声纹识别方向的数据增强研究也开始变得活跃起来。从说话人识别的角度来说,语音的可变性来源可以分成说话人的可变性和语音的信道和环境效应。前者的意思是由于说话人本身的不同从而导致语音的语速、语调等等的不同,而后者的意思是由于不同的录音设备,由于不同设备的原因,不同的信道和环境也会对所录制的语音造成不同程度的影响。
许多数据增强技术都试图扩展信道/环境影响的可变性,一开始人们只是对音频进行音量、语速、基频和采样率进行变化来达到数据增强的效果。后来,通过对音频内加入噪声以及混响也变得流行起来。而智能音箱等设备在市场上普及之后,通过房间冲激响应(room impulse response)来模拟远场(far-field)语音的做法逐渐成为了主流。2019 年,时频谱增强(SpecAugment)技术被提出后,凭借着其简单与高效,该方法也开始受到了越来越多研究人员的青睐。
SpecAugment 通过扭曲时域信号,掩盖频域通道,和掩盖时域通道,修改了频谱图。这种增强方式可以用来增加网络的鲁棒性,来对抗时域上的变形,频域上的部分片段损失。下面展示了一个增强的例子。
然而,所有前面提到的这些数据增强方法,都可以看作是对信道(channel)的增强,用以提升训练数据的信道多样性。但对于声纹识别模型而言,和信道多样性同等重要的,还有训练数据的声纹多样性以及文本多样性。而这正是目前的数据增强方法所欠缺的。
声纹多样性很好理解,训练数据中包含的说话人越多,训练出来的模型通用性越强。如果训练数据只包含 10 个说话人,那么即使音频数据长达上万小时,也无法训练出可用的声纹识别模型。
而文本多样性,可以理解为训练数据所包含的语音抄本内容。假如训练数据中的语音全部来自儿童节目,那么训练出来的声纹模型,很可能也只能应用于儿童节目。如果将这样的模型用于其他领域,例如财经新闻,由于诸如“金融”、“市场”这样的词语可能根本就没有在训练数据中出现过,所以模型性能肯定不会太好。
Synth2Aug 架构
在上个月举行的语音顶会 SLT 2021 中,Google 联合 DeepMind 提出了名为 Synth2Aug 的架构,Synth2Aug 是 synthesize-to-augment 的简写,表示将合成语音(synthesize-to-augment)作为数据增强的方式。其目标是跨域的文本无关的声纹识别任务,其架构如下图所示:
具体来看看该架构,训练数据作为源域,声纹模型需要在目标域进行部署,但是由于现实中各种各样原因的限制,得不到目标域的语音数据,所以在这种情况下如果仅仅通过源域中的数据是很难在目标域中达到理想的效果。
而 Synth2Aug 架构是利用源域的语音和对应的抄本训练出一个多说话人的语音合成模型,之后将目标域的文本和随机产生的虚拟声纹嵌入码输入到刚才训练好的 TTS 模型,生存目标域的近似语音,再将其与源域中的语音进行合并,从而达到数据增强的效果。接着用增强后的数据训练声纹识别模型后,相对来说会比单独使用源域的数据的效果要好。
实验和结论
实验
作者采用的是 GE2E 的声纹识别模型作为基线系统,对于 TTS 模型,作者使用的是 Tacotron2 作为多说话人语音合成模型。该模型由两部分组成,其中第一部分是将音素序列转换为梅尔谱图的预测网络,而第二部分是梅尔谱图转换为语音波形的声码器 WaveRNN。
对于合成语音,文中提到了两种方式。第一种是直接使用 TTS 模型中训练说话人的嵌入向量,这种方法保留了说话人本身真实的特征,但是在实验中重复使用了现有的说话人,所以说话人可变性相对有限。第二种方法是在学习到的嵌入空间中对嵌入的说话人进行采样,合成人工语音。作者发现,当实际训练语音和采样语音之间的平均余弦相似度为 0.185 左右时,两个采样语音之间的平均相似度将近为 0.5。所以为了避免说话人内部的变化导致说话人间的变化,作者进行了一个“说话人选择”的过程,在通过语音合成模型生成新的语音数据时,最好利用余弦相似度去除声纹过于接近的合成语音。论文中采用了 0.4 这一余弦相似度的阈值来决定是否去除或保留生成的语音。
其次,论文作者将 Synth2Aug 与其他数据增强技术结合起来使用,发现无论是否对训练数据采用多风格训练 MTR(multi-style training)增强,Synth2Aug 都能显著提升模型性能,这使得 Synth2Aug 的实用性变得非常强。
作者进行了 7 组实验,其中三组结合了 MTR 技术。第一种作为基线系统使用的是基于 GE2E loss 的 d-vector 方法;第二种方法是除了基线模型数据外再加上由真实说话人嵌入向量合成的语音,这里说话人多样性是有限的,也就是合成前原始数据中包含多少说话人,增强后数据中同样包括同样数目的说话人;第三种方法是使用采样后的说话人嵌入,这个实验为数据集中添加的新的说话人;第四种方法与前一种方法不同点在于使用了比前一种方法更小维度的嵌入向量以及只为每个说话人添加新的语音,而不是为数据集中添加新的说话人;第五种方法是将基线系统进行多风格训练;第六种方法中,将 MTR 方法应用在第四种方法中;最后一种方法是将上述 MTR 和 TTS 增强技术结合起来。
在本文的实验中,在不使用 MTR 时,Synth2Aug 增强技术可以将等错误率 EER 从基线 6.3%降低到 4.6%;使用 MTR 时,Synth2Aug 可以将等错误率从 4.3%降低到 3.5%。同时对同一实验来说,使用 MTR 与否,EER 都会发生较大的改变。
这表明,TTS 合成有助于较好的调整 MTR。可能是 MTR 解决了语音数据中信道/环境影响的稀疏性,而 TTS 合成有助于扩展以说话人为中心的可变性。
作者又进行了一个实验,想看看不同的上下文内容对说话人识别性能的影响。其中用相同数量的说话人和语音合成新的语音,但用不同的抄本。所研究的抄本内容包括随机数字/单词序列、一些顶级语音查询文本、目标域测试数据集文本及其单词无序变体。共进行了 6 个实验,其中第一种是随机从 0 到 9 的数字加‘oh’;第二种是从 100 个完整数据集中选取的 3-7 个单词组成的句子;第三种是第二种方法的完整版,不仅仅从 100 个单词中选取,而是从完整的 TIMIT 数据集中选取 3-7 个单词随机的连接成一个句子;第四个是近似匹配,使用 10000 个受欢迎的演讲提问作为抄本进行和前面相同的实验,因为这里的文本是目标域语音查询的近似表示;第五个是精确匹配,直接从测试数据集中提取的抄本,这表示与目标域的文本内容精确匹配;第六个是在第五个实验中增加了重新排列每段语音中单词顺序的步骤。
不足为奇的是精确匹配得到了最好的性能,因为其中的文本内容与目标域中的文本内容一致。有趣的是,使用语义上无意义的语句(最后一个实验)的结果比精确匹配的结果差,但比近似匹配的结果好一点,这表明声纹识别中匹配目标域文本的好处不仅仅在于相似的词语和词频,而且源自于相似的词序。(个人认为最后这一句结论有点牵强了。。)
结论
本文提出了一种新型的语音数据增强的方法 Synth2Aug,它将 TTS 合成技术作为一种新型的数据增强技术来提高说话人识别的性能。当训练数据被压缩到一定数量的说话人时,我们可以发现利用所提出的 Synth2Aug 架构合成说话人显著的提高了声纹识别的准确率。TTS 合成技术可以通过生成额外的人工说话人来降低说话人的稀疏性。
参考文献
[1] Li Wan, Quan Wang, Alan Papir, and Ignacio Lopez Moreno,“Generalized end-to-end loss for speaker verification,” in2018IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). IEEE, 2018, pp. 4879–4883.
[2] Aleksandr Laptev, Roman Korostik, Aleksey Svischev, Andrei Andrusenko, Ivan Medennikov, and Sergey Rybin, “Youdo not need more data: Improving end-to-end speech recognition by text-to-speech data augmentation,”arXiv preprintarXiv:2005.07157, 2020.
[3] Aaron van den Oord, Sander Dieleman, Heiga Zen, Karen Simonyan, Oriol Vinyals, Alex Graves, Nal Kalchbrenner, Andrew Senior, and Koray Kavukcuoglu, “WaveNet: A generative model for raw audio,”arXiv preprint arXiv:1609.03499,2016.
[4] onathan Shen, Ruoming Pang, Ron J Weiss, Mike Schuster,Navdeep Jaitly, Zongheng Yang, Zhifeng Chen, Yu Zhang,Yuxuan Wang, RJ SkerrvRyan, Rif. A. Saurous, YannisAgiomyrgiannakis, and Yonghui Wu, “Natural TTS synthesis by conditioning WaveNet on Mel spectrogram predictions,”in2018 IEEE International Conference on Acoustics, Speechand Signal Processing (ICASSP). IEEE, 2018, pp. 4779–4783.
[5] Daniel S. Park, William Chan, Yu Zhang, ChungCheng Chiu,Barret Zoph, Ekin D. Cubuk, and Quoc V. Le, “SpecAugment:A simple data augmentation method for automatic speechrecognition,” inInterspeech, 2019.
[6] Shuai Wang, Johan Rohdin, Oldrich Plchot, Luḱas Burget, KaiYu, and JanCernocky, “Application of SpecAugment to deepspeaker embedding learning,” inIEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP),2020.
本文地址:https://alphalrx.cn/index.php/archives/176/
版权说明:若无注明,本文皆为“LRX's Blog”原创,转载请保留文章出处。