摘要:端点检测(Endpoint Detection) 也就是我们常说的语音活动检测 (Voice Activity Detection), 这种检测的主要作用是通过输入 的信号对语音的起止点进行检测, 准确的端点检测在语音识别系统 中具有十分重要的作用,因此, 本文就将复杂噪声环境中的语音 端点检测方法进行了详细的探讨。 【关键词】复杂噪声环境 语音端点检测 方法 1 端点检测系统结构框架 端点检测系统结构框架主要是由噪声估 计模块、包络确定延时模块、和端点检测模块 这三个模块构成,而前端处理和门限过零率这 两个模块是辅助,模块。如图1 所示为端点检 测系统结构框架图。 2 能量检测 2.1 噪声估计模块 假设平稳噪声能量的序列Ep(i)在某一 段时间内的概率密度用函数f(Ep)来表示, 即 f(Ep)=[1/( σ)]exp[-(Ep-μ)2 /2σ2] (其中, 均指用μ 来表示,均方差用σ 来表示),其归 一化的均方差可以用λ=σ/μ 来表示,那么f(Ep) =[1/( λμ)]exp[-(Ep/μ-1)2/2λ2],由此公 式可知,能量分布随着λ 的变小会分布的更加 集中,也就是说能量序列的波动就会变得更加 平缓。 Ep(i) 是Ex(i)中仅有的一个稳定因素, 因此,Ep(i) 的分布参数可以在Ex(i) 产生的波 动较小的段落中进行估计,但是Ep(i) 保持稳 定以及各态历经性的时间段较短,更短的是其 在信号中占据主导地位的时间,所以本文假设 在200-300ms(设其包含l 帧)内,稳定的噪 声能量能够保持相同的分布, 并且可以将前 80-120ms(设其包含r 帧)的信号能量作为依 据进行μ 和λ 的估计。 2.2 模型初始化和更新 对模型参数进行初始化时,所需的噪声样 可以先采用第一个分析窗的前r 帧,分别把μ 和λ 设成平均值ε1= Ex(i)和归一化均 方差 ε1={ [Ex(i)-ε1]2}1/2/ε1, 在初始化 的噪声样本中,可能会有不稳定的噪声存在, 而Ep(i) 的分布也在进行着十分缓慢地变化, 因此,为了更好地跟踪Ep(i) 的分布状况,在 以后的每个分析窗内都要对模型进行校正。将 第j 个分析窗作为例子进行分析,将前r 帧的 归一化均方差ξj 和信号的能量均值εj 计算出 来,下面我们就将μ 和λ 在两种不同的情况在 进行更新: (1)信号输入过程中中有时会使用语音 识别系统来进行,但是该系统有时候会出现非 常短暂的静音,在这种情况下我们为了防止模 型出现错误,就在εj<μ 或者是εj<λsil 时,就令 μ=μsil,λ=λsil,该公式中μ 的最低值为μsil,而 λ 的最低值为λsil。 (2)假如在不满足(1)的情况下,但 是却符合εj<μc 并且εj<λc,那么就令 μ=εj,λ=ξj,该公式中c 为常数,c 的取值 范围为1-1.5 之间,从而就可以跟踪分布的缓 变,或者也可以跟踪能量降低的噪声。 3 语音激活检测模块 语音激活检测模块的基础就是AMR-WB 编解码器中的端点检测算法,如图2 所示为该 算法的框图。 该语音激活检测模块的判决方法就是通 过对比使用特征与阈值来判决的,使用特征就 是子带信躁比的总和,把子带噪声进行相应的 估计就可以确定阈值。该模块的计算步骤是: 按照一定的时长对输入信号进行分帧,并且还 要充分利用滤波器组把每一帧的信号进行分 频,最终分成很多个子带,这样就可以在每一 个子带上分别计算信号的能量、估计噪声能量 和子带信躁比的计算,然后再分别将噪声的估 计值和自带信噪比求和,这样就可以根据噪声 的估计值来将阈值的门限进行确定,然后再将 最终确定值跟使用信噪比进行相应的对比,从 而就可以将初步的判决结果得出,最后再把初 步的判决结果使用延时检测策略进行修正,从 而就可以得出最终的判决结果。 4 结论 本文在现有的端点检测方法上提出了一 套更加详细的、完整的复杂噪声环境语音信号 端点检测系统,并将语音端点检测方法进行了 详细的说明,以便帮助人们能够更好地理解和 使用这些方法。 作者单位 青岛理工大学 山东省临沂市 273400 |