多媒体技术基础第3版Q-A(16)

时间：2026-01-17

多媒体的一本好书

11.8 简述MPEG-2 AAC的特性。

MPEG-2 AAC是MPEG-2标准中的一种非常灵活的声音感知编码标准。它使用听觉系统的掩蔽特性来减少声音的数据量，并且通过把量化噪声分散到各个子带中，用全局信号把噪声掩蔽掉。

AAC支持的采用频率可从8 kHz到96 kHz，AAC编码器的音源可以是单声道的、立体声的和多声道的声音。AAC标准可支持48个主声道、16个低频音效加强通道LFE、16个配音声道或者叫做多语言声道和16个数据流。

MPEG-2 AAC在压缩比为11:1，即在每个声道的数据率为(44.1×16 )/11=64 kbps，而5个声道的总数据率为320 kbps的情况下，很难区分还原后的声音与原始声音之间的差别。与MPEG-Audio层2相比，MPEG-2 AAC的压缩率可提高1倍，而且质量更高，与MPEG的层3相比，在质量相同的条件下数据率是它的70%。

11.9 什么叫做自然声音？什么叫做合成声音？

自然声音通常是指人、动物等发出的声音、弹奏乐器或其他音源自然发出的声音。合成声音通常指合成器生成的声音，如MIDI。

11.10 什么叫做TTS？至少列举TTS的3个潜在应用例子。

通过话音合成设备自动地把基于文字的数据转换为声音输出的一种技术。文语转换的最终目标是要使计算机像人一样输出清晰而又自然的声音，也就是说，根据文本的内容可以不同的情调来朗读任意的文本。TTS是一个十分复杂的系统，涉及到语言学、语音学、信号处理、人工智能等诸多的学科。尽管现有的TTS系统结构各异，转换方法不同，但是基本上可以分成两个相对独立的部分：①文本分析，通过对输入文本进行词法分析、语法分析，甚至语义分析，从文本中抽取音素和韵律等发音信息。②语音合成，使用从文本分析得到的发音信息去控制合成单元的谱特征(音色)和韵律特征(基频、时长和幅度)，送入声音合成器(软件或硬件)产生相应的语音输出。

通过电话访问信息，朗读文本，盲人计算机等。

11.11说出窄带话音和宽带话音的频率范围和编码时使用的采样频率。

对100~3800 Hz的窄带话音使用8 kHz采样率，对50 ~7000 Hz的宽带话音使用16 kHz的采样率。

11.12 MP3是什么？MP4是什么？

MP3 (MPEG Audio Layer 3)的含义有两种：① MPEG-1声音层3：MPEG-1 Audio标准中定义的声音压缩技术。MPEG声音的压缩技术分为1层，2层和3层。层1典型的压缩比为1:4，相应的数据率为384 kbps；层2典型的压缩比为1:6～1:8，数据率为256～192 kbps；层3典型的压缩比为1:10～1:12，相应的数据率为128～112 kbps，声音质量接近CD-DA；② MP3文件：使用MPEG-1声音层3压缩技术和存储格式的声音文件。MP3文件是目前因特网上最流行的文件，它的文件扩展名是.mp3，可以下载到袖珍MP3播放机或计算机上播放。

MP4目前的主要含义有两种: ① 文件格式：MPEG-4标准定义的文件格式，可包含视像、自然和合成声音、二维和三维图形、动画文字等各种媒体的内容，可用于存储和网上传输；② MP4声音文件：使用MPEG-4 AAC压缩技术和存储格式的声音文件，它的文件扩展名为.mp4。

多媒体技术基础第3版Q-A(16).doc 将本文的Word文档下载到电脑

下载这篇word文档