摘要 本文利用主分量分析神经网络(PCANN)方法,得到一种新的说话人语音特征。该特征通过对相继几帧语音特征参数组成的特征向量作主分量分析得到. 新的特征能有效的引入帧间相关信息,减小冗余度,削弱噪声的影响。实验表明,新特征提高了系统的识别性能。关键词 主分量分析神经网络(PCANN);特征提取;说话人识别;高斯混和模型(GMM) 1 引言说话人识别是根据从说话人所发语音中提取信息判断说话人身份的过程。语音信号中包含了话音特征和说话人个性特征,说话人识别的关键问题之一是提取反映说话人个性的语音特征参数。在说话人识别系统中常用的语音特征参数主要有,LPC 倒谱系数(LPCC) 、Mel 频率倒谱系数(MFCC)、线谱对(LSP)等 。在纯净语音环境中,系统已经达到很好的识别性能,但是在实际应用的环境中,由于背景噪声的存在,系统往往达不到令人满意的效果。主分量分析PCA (primary component analyze)是统计学中一种根据数据的统计分布特性,提取数据主要成分的数据处理方法. 它是最小均方误差下的最优正交变换,对消除模式间的相关性、突出模式间差异性有最佳的效果,所以常被用于数据的压缩和模式识别的特征提取 . 由于它需要对原始数据的方差矩阵进行估值并求取其特征值和特征向量, 计算量异常巨大, 而基于神经网络的主分量分析算法不必进行矩阵求逆运算,并且神经网络具有并行运算能力, 这将降低PCA 计算量, 提高PCA 的实用性 。对语音信号的原始特征作主分量分析后往往能得到更好的特征参数 。本文选用LPC倒谱系数作为表征声道的特征参数,采用相继的几帧组成的特征参数矢量作为样本,对其进行主分量分析,这样去除了特征中的冗余信息,压缩特征参数的维数,得到新的PCA特征参数,然后把PCA特征参数作为GMM模型的输入向量,进行说话人识别的训练和识别。本文第二节介绍主分量分析神经网络的原理和算法,第三节介绍高斯混和模型和LPCC特征参数,第四节给出相应的说话人识别系统实验和结果,最后是简要的讨论与展望。2 主分量神经网络(PCANN) 主分量神经网络是基于Hebb 学习规则的线性无监督学习神经网络, 它可以通过对权矩阵W 的学习, 使W接近于原始数据X的关联矩阵C中特征值所对应的特征向量, 而不必进行矩阵求逆运算,提高了运算速度。2.1 基于Hebb学习的最大特征滤波器 2.2 基于Hebb 学习的主分量分析网络 图3:提取前m个主分量的神经网络解析图
[8]电大学习网.免费论文网[EB/OL]. /d/file/p/2024/0424/fontbr />
3 识别系统特征参数以及模型3.1 语音的主分量特征参数(PCA特征)本文选用线性预测倒谱系数(LPCC)作为语音的原始特征参数然后对其进行主分量分析。LPCC系数是一种非常重要的特征参数。它的主要优点是比较彻底地去掉了语音产生过程中的激励信息,主要反映声道相应,而且往往只要十几个倒谱系数就能较好地描述语音信号的共振峰特性,因此在识别中取得了较好的效果。在实际计算中,LPCC参数不是由信号直接得到的,而是由LPC系数得到的。关系式如下:
(8)这里 实际上是直流分量,反映频谱能量,其值的大小不影响谱形,在识别中通常不用,也不去计算。当LPCC系数个数不大于LPC系数个数时用第二式,当LPCC系数个数大于LPC系数个数时,用第三式进行计算。
4 实验及结果分析本文实现了一个在噪声环境下与文本无关的说话人自动识别系统。使用的是一个含20人的语音数据库,包括10名男性和10名女性,每人语音长度约90秒。采样率为12kHz,采用16bit量化。首先对数据进行预处理,包括端点检测、预加重(H(z)=1-0.95 )和加窗(Hamming窗,帧长20ms,帧移10ms)。原始特征选为12阶的LPCC倒谱参数,主分量特征个数选12阶。高斯模型混合数M=16。训练音长为40s,测试音为3s。实验结果如表(1):表1 实验结果(%)
信噪比 方法 | 0dB | 10dB | 20dB | dB |
GMM | 32.1 | 60.8 | 80.5 | 98.4 |
PCANN_GMM 2帧 | 44.7 | 78.3 | 90.4 | 91.5 |
PCANN_GMM 3帧 | 45.9 | 79.6 | 89.9 | 93.2 |
PCANN_GMM 5帧 | 46.6 | 77.1 | 89.2 | 95.4 |
图(4)是根据表(1)中的数据画出的曲线。从表(1)可以看出,与传统的GMM方法相比,PCANN_GMM方法明显增强系统抗噪声能力,改进了识别效果。并且在PCANN_GMM中,帧数不同对识别也有较小的影响,当帧数大于5帧时,系统的识别性能不再提高。
5 总结本文运用PCANN/GMM方法进行说话人识别,将多帧特征参数合并为一帧,利用了帧间相关性,对其进行主分量分析,减少了冗余度,提高了系统的鲁棒性。另外,当前的说话人识别研究还主要集中在声学特征层次进行,基于人们说话中含有的高级特征所进行的研究虽然很多,下一步的
工作将结合声学特征和高级特征,研究它们之间的关系,从而进一步提高说话人识别系统的性能。
参考文献[1] 赵力. 语音信号处理 北京:机械工业出版社,2003[2] E.Oja. “A Simplified Neural Model as a Principal Components Analyzer”,Journal of Mathematic Biology,VOL.19,pp.267-273,1982[3] Sanger T D. “Optimal Unsupervised Learing In a Singer Layer Linear Feedforward Neural Network”,Neural Networks, pp459-473, 1989[4] 何振亚 顾明亮 语音信号的主分量特征 应用科学学报, VOL 17,NO.4,1999[5] Simon Haykin. 神经网络原理. 北京:机械工业出版社, 2004[6] Chanchal Chatterjee. and Vwani P.Roychowdhury. “On Relative Convergence Properties of Principal Component Analysis Algorithms”,IEEE Transactions On Neural Networks, VOL.9,NO.2,March 1998[7] Oh-Wook Kwon. and Kwokleung Chan. “Speech Feather Analysis Using Variational Bayesian PCA”,IEEE Signal Processing Letters,VOL.10,NO.5,May 2003
[8]电大学习网.免费论文网[EB/OL]. /d/file/p/2024/0424/fontbr />
相关文章:
强制措施:控制犯罪与保障人权并重04-26
被追诉人阅卷权探究04-26
强制侦查司法审查制度的完善04-26
论无罪辩护与量刑辩护的关系04-26
论未成年人刑事诉讼程序04-26
构建中国特色刑事特别程序04-26
司法精神病鉴定基本问题研究04-26
刑事证据制度的重大变革及其展开04-26
论未成年人犯罪诉讼程序的建立和完善04-26
我国刑事司法改革的推进之路04-26