未来智讯 > 神经网络论文 > 基于夹杂深度神经网络的语音加强要领切磋

基于夹杂深度神经网络的语音加强要领切磋

发布时间:2020-04-05 01:06:01 文章来源:未来智讯    
    基于夹杂深度神经网络的语音加强要领切磋作者:未知  摘要:针对基于夹杂深度神经网络的语音加强要领伸开切磋,阐明了该要领提议的配景、模子原理和实行过程。搭建了基于夹杂深度神经网络的深度进修语音加强模子,并与仅基于DNN的语音加强模子进行了对照尝试,验证了基于夹杂深度神经网络的语音加强要领,进一步提高了加强语音的质量。
  关头词:夹杂深度神经网络;语音加强;深度进修;语音质量
  0引言
  近几十年来,语音加强(speech enhancement)因为其在移动德律风、语音辨认、助听器设计等实时应用方面的严重性而受到切磋者的存眷。语音加强要领的首要目的是在不失真的环境下提高退化语音(deteriorated speech)旌旗灯号的语音质量。为此,列国学者设计了很多算法。好比,谱减法是带噪语音减去短期噪声频谱的稚嫩预计值,从而发生明净语音的稚嫩预计值频谱。旌旗灯号子空间法是将带噪语音旌旗灯号议决矩阵分化的要领分化为旌旗灯号子空间和噪声子空间,进而得到明净语音旌旗灯号的频谱估值。可是,在这些传统要领中常常碰到的问题是:由此发生的加强语音常常受到一种工资因素的影响,即“音乐噪声”。并且,因为传统的语音加强要领每每假如噪声旌旗灯号是安稳的而且噪声旌旗灯号与语音旌旗灯号不存在有关关系,这使得传统语音加强算法无法实用于非安稳噪声的实际环境。
  上世纪90年月,思虑到噪声对语音作梗的纷乱过程,局部学者起点选取神经网络等非线性模子来设立带噪语音与明净语音旌旗灯号之间的映射关系。文献[4]和文献[5]行使浅层神经网络(shallow neuralnetworks)作为非线性滤波器来展望时域或频域内的明净旌旗灯号。然而,浅层神经网络的网络规模小,不克不及充分进修带噪语音特性与指标信噪比之间的关系。不仅云云,浅层神经网络的随机初始化经常会呈现较着的部分极小值或凝滞,对付蕴含更多潜藏层的系统布局,问题会更为较着。2006年Hinton等学者在其论文“A fast learning algorithm for deepbelief nets”和“Reducing the dimensionality of datawith neural networks”中提议了一种贪心的分层进修算法,为训练深度架构带来了突破,同时也迎来深度进修技艺的大繁荣。深度进修模子的每一层都进行预训练,以进修其输入(或前一层的输出)的高级表现。对付回归义务,深度进修已被应用于多个语音合成义务中。在文献[11]和[12]中,堆叠降噪自编码器(stacked denoising autoencoders)作为一种深度模子来设立带噪语音和明净语音旌旗灯号特征之间的关系,为了捕获语音旌旗灯号的时间特征,局部学者还引入了轮回神经网络(recurrent neuralnetworks),从而袪除了多层感知器(muhilayerperceptrons)中对上下文窗口的显式选择,文献[13]和[14]选取深度轮回神经网络(deep recurrentneural networks)为鲁棒语音辨认(robust speechrecognition)进行特性加强。但在有限噪声类型下训练的深度轮回神经网络泛化才力较弱。此外,近年来基于对带噪语音频谱图(spectrograms)处置的语音加强算法也不息被提议。Fu等学者使用卷积神经网络(convolutional neural networks)直接从带噪语音的频谱图中稚嫩预计出了明净语音的频谱图,该要领较基于深度神经网络(deep neural networks)的幅度处置要领比拟本能有了很大提高。
  跟着学者对深度进修模子切磋的不息深入,人们起点实验将深度进修模子与原有机械进修模子(如SVM或GMM)或者各异深度进修模子之间进行结合,构建出夹杂的深度进修模子布局,好比:DNN-HMM布局、DNN-GMM布局、CNN-RNN布局、CNN-HMM布局以及RNN-HMM布局等。切磋发现,使用这些夹杂网络相较于单一网络布局可以得到更好的本能和尝试效率。
  1 基本要领概述
  1.1 语音加强的观念
  语音加强是指议决克制噪声来改善听众对带噪语音某方面的感知体验。在现实应用中,语音加强对带噪语音感知体验的改善首要有质量(quality)和可懂度(intelligibility)两个方面。针对带噪语音质量的改善长短常需要的,出格是在其永劫间透露于诸如工场出产车间或航空飞机场等高分贝噪音情况下,语音质量的改善能够削减听众的听觉疲惫。使用语音加强算法能够在必然水平上贬低或克制配景噪声,是以有时也称其为噪声克制算法(noisesuppression algorithms)。
  1.2 深度进修模子
  深度进修指的是普遍的机械进修技艺以及基于多层非线性信息处置的系统布局,这些信息处置性子上被以为是分层的,深度进修的模子布局能够分为单一自力(Standalone)布局(平日包罗DNNs、CNNs和RNNs等)和夹杂(hybrid)布局(包罗DNN-HMM、DNN-GMM、CNN-RNN、CNN-HMM和RNN-HMM等)。
  卷积神经网络(CNNs)被以为是一个由多个特性提取阶段所组成的深层系统布局,个中每个阶段都蕴含一个卷积层和一个池化层以及非线性激活函数(ReLU),议决如许的组合体式格局力图接近纷乱的非线性模子函數。卷积层共享了权值,而池化层对来自卷积层的输出进行采样,贬低了数据维度。CNNs假如特性具有各异条理布局并能够议决卷积内核提取。在监督训练过程中,议决进修条理特性来完成既定的义务。
  轮回神经网络(RNNs)是一类许可议决网络的各异层共享参数的深度神经网络。RNNs是基于近似树的布局上轮回地使用不异的权值集来开辟的,该树按拓扑挨次遍历。RNNs首要用于行使已有的数据样本展望将来的数据序列。当涉及到语音或文本等序列数据的建模时,RNNs长短常风行的。
  将卷积神经网络(CNNs)与轮回神经网络(RNNs)相联合,用于对音频旌旗灯号或单词序列等序列数据进行建模,这种夹杂模子称为卷积轮回神经网络(CRNNs)。议决用RNNs替代最终一层卷积,能够将CRNNs描绘为一个颠末修改的CNNs。在CRNNs中,CNNs和RNNs离别饰演着特性提取器和时间总结器的脚色。选取RNNs对特性进行聚类,使得网络可以思虑全局布局,而部分特性由卷积层提取。这种布局最初是在文献[17]中提议用于文档分类,文献[18]选取该布局进行了音乐标注。
         2 基于夹杂深度神经网络的语音加强要领
  2.1模子概述
  基于夹杂深度神经网络的语音加强模子由三个局部构成:起首,将带噪语音频谱图与若干个卷积核(kemel)进行卷积,形成特性图(feature maps),并将全部特性图拼接成一个二维特性图:然后,行使双向RNNs在时间维度对二维特性图进行进一步的变换,设立赓续帧之间的动态联系;最终,设立展望频谱图和明净语音频谱图之间的成本函数(costfunction),行使全联贯层(Fully Connected Layer)对明净语音频谱图逐帧进行展望。与已有的DNNs和RNNs模子比拟,因为卷积内核的稀疏性,该夹杂网络具有更高的数据效果和处置效果。此外,双向轮回网络使得模子可以自顺应地对赓续帧之间的动态联系进行建模。
  2.2 模子设立
  假定y和x离别为带噪语音和其所对应的明净语音频谱图,其维度均为d×t。个中,d表现频谱图的频带数量,t表现频谱图的长度。假定Z为卷积核,其维度为b×w。将带噪语音频谱图y与内核z进行卷积,所形成的特性图如公式(1)所示。
  3 基于夹杂深度神经网络的语音加强尝试
  将基于夹杂深度神经网络所设立的语音加强模子与仅基于DNN的语音加强模子在语音加强的质量效率进行了尝试对照。
  3.1尝试过程
  3.1.1 数据筹备
  离别搭建基于夹杂深度神经网络和仅基于DNN的语音加强模子。明净语音选自TIMIT数据库,噪声旌旗灯号采用NOISEX-92中的babble、ca、street和train四种噪声,按照-5dB、0dB和5dB离别加噪。
  两种模子的训练数据集均由TIMI了数据库中的所有训练集4620个句子,按照各异噪声类型(4种)联合各异信噪比(3种)所发生的各异加噪前提(12种)的带噪語音和与之对应的明净语音构成。以是,选取了55440个语音对来组成两种模子的训练数据集。
  两种模子的测试数据集均由TIMIT数据库中的所有测试集1680个句子,按照各异噪声类型(4种)联合各异信噪比(3种)所发生的各异加噪前提(12种)的带噪语音和与之对应的明净语音构成。以是,选取了20160个语音对来组成两种模子的测试数据集,
  3.1.2模子参数设置
  基于夹杂深度神经网络的语音加强模子尝试中,作为预处置程序,起首使用短时傅里叶变换(STFT)从每个话语中提取频谱图。每个频谱图中有256个频带(d=256)和500帧(t=500)。模子卷积层中有256个维度为32×11的卷积核,滑动步长(stride)频率维度为16.时间维度为1.边沿外主动补0。在卷积层之后使用了两层双向LSTMs.每层都有1024个潜藏单位。
  仅基于DNN的语音加强模子尝试中,DNN模子蕴含3个潜藏层,每个层都有2048个潜藏单位。
  3.2 尝试了局及剖析
  尝试中语音质量的评价选用PESQ要领,语音质量的PESQ评价了局见表1-表3所示。
  语音质量的PESQ值越高讲明对应的语音主观听觉质量越好,从表1-表3语音PESQ测试值能够看出:相较于仅基于DNN的语音加强模子,基于夹杂深度神经网络的语音加强模子进一步提高了加强语音的质量,
  因为在所构建的夹杂深度神经网络中,CNNs和RNNs离别饰演了特性提取器和时间总结器的脚色。选取双向LSTMs对特性进行聚类,使得网络可以思虑语音的全局布局,而部分特性能够由卷积层提取。是以,基于夹杂深度神经网络的语音加强要领较仅基于DNN的语音加强要领可以进修到语音中更多的上下文全局信息,表示出更好的语音质量加强效率,
  4 告终语
  本文针对基于夹杂深度神经网络的语音加强要领伸开了切磋,阐明了该要领提议的配景、模子原理和实行过程,搭建了基于夹杂深度神经网络的语音加强模子和仅基于DNN的语音加强模子,进行了对照尝试,验证了基于夹杂深度神经网络的语音加强要领,进一步提高了加强语音的质量。
转载请注明来源。原文地址:https://www.7428.cn/page/2020/0405/87311/
 与本篇相关的热门内容: