3章 语音编码与处理技术

时间:2026-01-17

第三章 音频编码与处理多媒体技术多媒体技术第三章 音频编码与处理多媒体技术浙江工业大学计算机学院 古辉gh@http://www.77cn.com.cn13.1音频编码概要 3.2 脉冲编码调制(PCM) 3.3 增量调制与自适应增量调制 3.4 自适应差分脉冲编码调制 3.5 线性预测编码(LPC)的概念 3.6 音频编码技术标准 3.7 语音编码评测 3.8 语音合成 3.9 语音识别23.1 音频编码概要多媒体技术3.1 音频编码概要多媒体技术语音波形的特性话音分成三种类型:浊音(voiced sounds),清音 (unvoiced sounds)和爆破音(plosive sounds)。浊音是一种称为准周期脉冲(quasi-periodic pulses)激励所 发出的音,这种准周期脉冲是在声门打开然后关闭时中 断肺部到声道的气流所产生的脉冲。 清音是由不稳定气流激励所产生的,这种气流是在声门 处在打开状态下强制空气在声道里高速收缩产生的。 爆破音是在声道关闭之后产生的压缩空气然后突然打开 声道所发出的音。 不能归属到上述三种音中的任何一种音,称为混合音。浊音段的波形举例浊音段的功率普密度举例3清音段的波形举例清音段的功率谱密度举例43.1 音频编码概要多媒体技术3.1 音频编码概要多媒体技术三种话音编译码器话音编译码器一般分成三种类型: 波形编译码器(waveform codecs)的话音质量高,但数 据率也很高; 音源编译码器(source codecs)的数据率很低,产生的 合成话音的音质有待提高; 混合编译码器(hybrid codecs)使用音源编译码技术和 波形编译码技术,数据率和音质介于它们之间。图 普通编译码器的音质与数据率5 6

3.1 音频编码概要多媒体技术3.1 音频编码概要多媒体技术波形编译码器波形编译码的想法是,不利用生成话音信号的任何知 识而企图产生一种重构信号,它的波形与原始话音波 形尽可能地一致。 时域法(time domain approach) 脉冲编码调制(pulse code modulation,PCM),它仅 仅是对输入信号进行采样和量化。 差分脉冲编码调制(differential pulse code modulation,DPCM) 自适应差分脉冲编码调制(adaptive differential PCM,ADPCM)。 频域法(frequency domain approach) 子带编码(sub-band coding,SBC) ; 自适应变换编码(adaptive transform coding, ATC)。7音源编译码器音源编译码的想法是从话音波形信号中提取生成话音的 参数,使用这些参数通过话音生成模型重构话音。混合编译码混合编译码的想法是企图填补波形编译码和音源编译码 之间的间隔。 时域合成-分析(analysis-by-synthesis,AbS)编译码器; 等间隔脉冲激励(regular-pulse excited,RPE)编译码器; 码激励线性预测CELP(code excited linear predictive)编 译码器 混合激励线性预测(mixed excitation linear prediction, MELP) 。83.2 脉冲编码调制(PCM)多媒体技术3.2 脉冲编码调制(PCM)多媒体技术PCM的概念脉冲编码调制(pulse code modulation,PCM)是概念上 最简单、理论上最完善的编码系统,是最早研制成 功、使用最为广泛的编码系统,但也是数据量最大的 编码系统。 PCM的编码:它的输入是模拟声音信号,输出是PCM 样本。图中的“防失真滤波器”是一个低通滤波器,用来滤除声 音频带以外的信号; “波形编码器”可暂时理解为“采样器”,“量化器”可理解 为“量化阶大小(step-size)”生成器或者称为“量化间隔”生 成器。9Coder图 PCM编码框图103.2 脉冲编码调制(PCM)多媒体技术3.2 脉冲编码调制(PCM)多媒体技术均匀量化均匀量化就是采用相同的“等分尺”来度量采样得到的幅度, 也称为线性量化,如图所示。量化后的样本值Y和原始值X 的差E=Y-X称为量化误差或量化噪声。非均匀量化非线性量化的基本想法是,对输入信号进行量化时, 大的输入信号采用大的量化间隔,小的输入信号采用 小的量化间隔。这样就可以在满足精度要求的情况下 用较少的位数来表示。声音数据还原时,采用相同的 规则。 在非线性量化中,采样输入信号幅度和量化输出数据 之间定义了两种对应关系,一种称为μ 律压扩 (companding)算法,另一种称为A律压扩算法。1112

3.2 脉冲编码调制(PCM)多媒体技术3.2 脉冲编码调制(PCM)多媒体技术μ 律压扩μ 律(μ -Law)压扩(G.711)主要用在北美和日本等地区的数字电话 通信中,按下面的式子确定量化输入和输出的关系:图非均匀量化13式中: x为输入信号幅度,规格化成; sgn(x)为x的极性; μ 为确定压缩量的参数,它反映最大量化间隔和最小量化间 隔之比,取100 ≤μ ≤ 500。 由于μ 律压扩的输入和输出关系是对数关系,所以这种编码又请 看相关的参考文献。143.2 脉冲编码调制(PCM)多媒体技术3.2 脉冲编码调制(PCM)多媒体技术A律压扩A律(A-Law)压扩(G.711)主要用在欧洲和中国大陆等地 区的数字电话通信中,按下面的式子确定量化输入和 输出的关系:0 ≤ | x | ≤ 1/APCM在通信中的应用PCM编码早期主要用于话音通信中的多路复用。 频分多路复用 (frequency-division multiplexing, FDM) 这种方法是把传输信道的频带分成好几个窄带, 每个窄带传送一路信号。 (2) 时分多路复用(time-division multiplexing,TDM) 这种方法是把传输信道按时间来分割,为每个用 户指定一个时间间隔,每个间隔里传输信号的一 部分,这样就可以使许多用户同时使用一条传输 线路。这是数字通信的主要手段。15 161/A < x ≤ 1式中:x为输入信号幅度,规格化成 -1 ≤x ≤1; sgn(x)为x的极性;3.3 增量调制与自适应增量调制多媒体技术3.3 增量调制与自适应增量 …… 此处隐藏:12013字,全部文档内容请下载后查看。喜欢就下载吧 ……

3章 语音编码与处理技术.doc 将本文的Word文档下载到电脑

    精彩图片

    热门精选

    大家正在看

    × 游客快捷下载通道(下载后可以自由复制和排版)

    限时特价:4.9 元/份 原价:20元

    支付方式:

    开通VIP包月会员 特价:19元/月

    注:下载文档有可能“只有目录或者内容不全”等情况,请下载之前注意辨别,如果您已付费且无法下载或内容有问题,请联系我们协助你处理。
    微信:fanwen365 QQ:370150219