摘 要 本文利用一种快速声调识别方法,用一电平消波,降低采样率和线性插值形成快速基音提取,并应用RBF神经网络对四声进行自动分类。方法具有简单可靠和容差性等特征。
关键词 声调识别, 自动声韵切分, 基音提取, RBF神经网络
1 引言
汉语是一个声调语言,正确的识别声调具有重要的意义。声调是汉语主要属性之一,正确的识别声调具有重要的辩义作用。声调识别对语音合成、识别和理解也有重要意义。近年国内外已报导许多声调识别方法[7][8][9],都有很高的识别率,孤立字声调识别开始进入实用[10]。需要指出,某些方法缺乏模型描述,不能达到最佳效果。有的需先进行特征训练来建立训练模板,否则性能会下降,有些方法因计算复杂和计算量大使之难于实时处理。2 声韵切分的算法的实现
声母的音长比较稳定,不太因人而异[1][2]。因此,如果声韵切分准确,就可以对可靠的声母信息进行分析,从而得到良好的判别结果。 从语言学的角度来看,声母韵母之间有一定的界线,但在声学信号上这一界线并不很清楚。往往要采用专家系统的方法才能获得较为准确的分割,文献[3] [4]给出了人工方法切分的声母长度的分布情况。但是,一方面:有手工进行大量数据语音库的标注是一件费事而又枯燥的工作,长时间的连续的工作又会造成标注人员生理,心理的疲劳,从而在切分过程中引入不可预测的随意性误差;同时标注人员对语言学的理解和把握的不一致,经常是标注人员对自己的判断更为认同,自己的标注结果“更准确”。这样就引入了主题判断造成的倾向性误差,因而使得切分结果的可重复性无法得到保证,不同人所得的切分结果的可重复性就更差。另一方面,在自动语音判别系统中(普通话标准测试中),这一切分过程要求自动实现。目前尚没有一种供人满意的声韵切分的算法,大致的有用小波变换进行切分的[5],有用声母音长分布[2],有用基于多尺度分形维数的汉语语音声韵切分[6],有用基于听觉模型的耳语的声韵切分。 汉语的22种声母中,除了零声母,l,m,n,r外,其余都是清辅音,根据这一特点,我们做出的声韵切分规则为: 令音节的总长度为 ,声母类单元长度为 ,韵母类长度为 ,音阶中的清音段长度(或浊音起始位置)为 ,则3 基音检测[10][11]
汉语声调信息载于音节的基音曲线上,并主要在韵母段,常用的基音检测自相关法具有物理意义明确和方法简便等优点,但其繁重的计算量影响在实时处理中的应用。为了提高计算速度和加快基音提取,本文采取下列措施。3.1 一电平中心消波
一般汉语基音频率下限可取60Hz(16.7ms),自相关计算至少要包含两个完整的基音周期语音,实际只要选取的帧长为30ms,就可找出所有高于67Hz的基音频率。已有的中央削波法可以有效地解决声道响应的谐波影响。本文在此基础上提出一电平削波.图3为一电平削波函数。削波器输出在z(n)<C1 时为0,C1 为分析帧中前后各100样点的最大值中较小的一个68%,自相关计算如下式:3.3 基音检测的后处理[12]
无论采用哪一种基音检测算法都可能产生基音检测的错误,使求得的基音周期轨迹中一个或几个基音周期的估计值偏离了正常的轨迹(通常是偏离到正常值的两倍或1/2),此时为了去除这些野点,可以采用各种中值平滑算法 (1)中值平滑处理中值平滑处理的基本原理是:设x(n)为出入信号,y(n)为中值滤波器的输出,采用一个滑动窗,则以 出的输出值 就是将窗外的中心移到 处时窗口输入样点的中值。及 点的左右各取L个样点。连同被平滑点中心共同构成一组信号采样点(共(2L+1)个样值),然后将这(2L+1)个样点按大小序列排成一排,此序列中中间者作为平滑器的输出。L值一般为1或2,即中值平滑起的“窗口”一般套住3个或5个样点。中值平滑的优点是既可以有效地除去少量的野点,又不会破坏基音周期轨迹中两个平滑段之间的阶跃性变化。 (2) 线性平滑处理 图5(基音曲线平滑的效果)
[8]电大学习网.免费论文网[EB/OL]. /d/file/p/2024/0424/fontbr />
4 RBF网络对声调的自动识别
4.1 概述
RBF神经网络除了具有一般神经网络的优点,如多维非线性映射能力,泛化能力,并行信息处理能力等,还具有很强的聚类分析能力,学习算法简单方便等优点;它能将语音的动静态特性和听觉感知特性融合到网络特性之中,用于对基音曲线数据聚类时,能使客观评测的结果与主观感知更接近。因此,本文采用径向基函数(RBF)神经网络完成语音基音数据曲线到声调四声的映射,得到对声调识别结果。4.2 RBF神经网络结构及算法
RBF神经网络的工作原理分为两个阶段。其一:是学习阶段,选定充分和质量好的基音曲线数据样本。RBF神经网络学习结果以权值的形式存储在网络结构之中。其二:是工作阶段,当测试语音样本输入RBF神经网络时,训练好的具有一定泛化性的网络将进行内插和外推的方式进行自适应完成特征匹配过程。给出客观声调评价结果。其中训练集与测试集语音样本均选自苏州大学普通话测试中心的考试语音。 根据声调的特点,采用一个具有十四个输入节点(基音曲线数据归一化),四个隐含节点(分别代表四声),一个输出节点的三层RBF神经网络如图6 图6(三层RBF神经网络 ) 在图中,第j个隐含层节点到第m个输入节点的连接权值为 Wjm, rJ为隐含层第j个节点的高斯核宽度;输出节点到第j个隐含层节点的连接权值为Uj ;L(.)为线性函数; fj (.)为隐含层第j个节点的激励函数,取高斯型函数,其表达式为 (2)网络的最终输出 有下式求出 (3) 为了提高RBF神经网络的收敛速度,将隐含层参数 Wjm,rJ 和输出层权值Uj 分开进行训练.对隐含层参数 Wjm和rJ 的训练采用一种新的聚类算法,即改进最近邻聚类学习算法,此算法具有学习时间短、计算量小、网络性能优良等优点[13]。针对语音参数处理的特性,对文献[13]中的自适应最近邻聚类学习算法进行改进;对输出层权值Uj 的训练采用梯度下降算法。梯度下降算法过程<1>.给Uj 赋随机初值,j=1,2,…,J;由改进最近邻聚类算法得到隐含层参数Wjm 和rJ 以及采用式(2)和式(3)计算神经网络的输出 Oi <2>.计算理想值 Yi与RBF神经网络的输出 Oi 之间的误差为: (4)<3>.定义目标函数为 (5)<4>. 在t+1时刻,输出层权值Uj 按照如下的规则更新,其中为训练系数 (6)4.3 输出的客观识别结果
客观识别性能的好坏,主要以其客观识别结果与理想值的相关性高低来衡量。相关系数 由下列式子算出 (6) (7) 实验结果如表一七(字) | 训练集1 | 测试集1 | 训练集2 | 测试集2 |
0.9265 | 0.9058 | 0.9224 | 0.8894 | |
0.2021 | 0.2453 | 0.1068 | 0.1492 |
5 结论
本文提出采用RBF神经网络对声调进行自动识别的一种新方法。首先进行声韵的自动切分,提取出韵母类,在进行基音曲线特征的提取,然后利用RBF神经网络的多维非线性映射原理完成特征参数到理想值得映射。实验表明,单采用训练样本相关度达到0.92 而采用测试集使相关度达到了0.88 ,表明了此方法具有明显的优越性。参考文献
1 朱维彬, 张家禄. 汉语语音资料库的语音标记及人工切分. [J] 声学学报, 1999. 5 (24)2 关存太, 陈永彬, 吴伯修.全音节汉语语音识别系统的声学模型研究.[J]声学学报, 1994.9 (19)3 陈永彬,王仁华.语言信号处理.[M]合肥:中国科学技术大学出版社,19904 齐士铃,张家禄.汉语普通话辅音音长分析.[J]声学学报,1982.7 (1)5 李永光, 李雪耀.基于小波变换的自动声韵切分的研究.[J]哈尔滨工程大学学报, 1998.6 (19)6 王帆 ,郑 方, 吴文虎. 基于多尺度分形维数的汉语语音声韵切分.[J]清华大学学报 , 第42卷7 赵鹤鸣, 周旭东, 金延庆, 翁桂荣.基于小波变换的重叠语音基频提取及声调识别.[J]声学学报, 1999.1(24)8 黄泽镇,杨行竣.普通话孤立字发声的一种模式识用方法. [J] 声学学报, 1990.19 徐士林. 四声模糊识别方法.[J]电子学报,1996(1)10 赵力. 语音信号处理.[M]机械工业出版社11 Y.Ying,S,xu..A fast method of pitch detection for Chinese four tones recognition. Proceeding of ISCP’93 Oct 1993 Bei jin 12 周俊武,孙传尧,王福利.径向基函数(RBF)网络的研究及实现[j].矿冶,2001,10(4):71—75.
[8]电大学习网.免费论文网[EB/OL]. /d/file/p/2024/0424/fontbr />
相关文章:
审计论文:影视企业收入审计难点及策略探讨04-26
在职MPA论文的选题技巧04-26
基于数控等离子增材制造的复杂结构件路径规划方法思考04-26
2021年临床医学毕业论文选题30例04-26
跨区域公共危机治理的协同机制探讨04-26
数字经济时代企业边界突破的逻辑与路径04-26