第3章 声音(3).ppt
《第3章 声音(3).ppt》由会员分享,可在线阅读,更多相关《第3章 声音(3).ppt(82页珍藏版)》请在麦多课文档分享上搜索。
1、第3章 声音(3),2018/10/12,南京大学多媒体研究所,2,内容,一、全频带数字声音的压缩编码 二、MIDI,一、全频带数字声音的压缩编码,1 听觉系统的感知特性,2018/10/12,南京大学多媒体研究所,5,响度,通常用声强级来描述声强的强弱。 规定声强: I0=10-12 W/m2 作为测定声强的标准。 (频率为1 000 Hz的声波能引起听觉的最弱声强),声强级L定义为:,(Bel ) 单位为贝尔,(dB ) 单位为分贝,2018/10/12,南京大学多媒体研究所,6,听觉系统对对响度的感知,人的听觉系统存在一个听觉阈值电平,低于这个电平的声音信号就听不到 听觉域值的大小随声音
2、频率的改变而变化,大多数人的听觉系统对2 kHz5 kHz之间的声音最敏感。 声音是否能听到取决于声音的频率及强度(是否大于该频率对应的听觉阈值) 每个人的听觉域值也不同。,2018/10/12,南京大学多媒体研究所,7,“听阈-频率” 曲线,听阈是随频率变化的 人耳对不同频率的敏感程度差别很大 人耳对2-5 kHz范围的声音信号最为敏感,痛阈-频率曲线,听阈-频率曲线,人耳听觉范围,等响度级曲线,2018/10/12,南京大学多媒体研究所,8,音调,对音调的感知 人们对音调(音高)的主观感觉, 单位是“美”(Mel) 主观感觉的音调与频率之间并不是线性关系:Mel=1000*log2(1+f
3、) 人耳对频率的感知范围: 20 Hz 20000 Hz,2018/10/12,南京大学多媒体研究所,9,听觉掩蔽特性,一种频率的声音阻碍听觉系统感受另一种频率的声音的现象称为掩蔽效应。前者称为掩蔽声音(masking tone, masker),后者称为被掩蔽声音(masked tone, maskee)。 掩蔽效应可分成2种: 频域掩蔽 时域掩蔽,2018/10/12,南京大学多媒体研究所,10,频域掩蔽,强纯音会掩蔽频率与其靠近的同时发声的弱纯音,这种特性称为频域掩蔽,也称同时掩蔽(simultaneous masking)。例如,同时有两种频率的纯音存在,一种是1000 Hz的声音(6
4、0dB),另一种是1100 Hz的声音(42dB),在这种情况下,1100 Hz的声音就听不到。 弱纯音离强纯音越近就越容易被掩蔽。,2018/10/12,南京大学多媒体研究所,11,不同纯音的掩蔽效应曲线,低频纯音可以有效地掩蔽高频纯音,但高频纯音对低频纯音的掩蔽作用则不明显 掩蔽效应的作用范围和大小,与声强及频率有关,频率越高、声音越强,掩蔽效应越大。,声强为60分贝的250 Hz、1 kHz、4 kHz和8 kHz纯音,对其他纯音的掩蔽效应。,2018/10/12,南京大学多媒体研究所,12,时域掩蔽,在时间上相邻的声音相互之间也有掩蔽现象,称为时域掩蔽。时域掩蔽的主要原因是人的大脑处理
5、信息需要花费一定的时间。,2018/10/12,南京大学多媒体研究所,13,临界频带,同一个频带里的声音相同 非线性的25个临界频带 临界频带的掩蔽效应,2 MPEG-1 Audio(11172-3),2018/10/12,南京大学多媒体研究所,15,什么是MPEG-1与MPEG-1 音频,MPEG-1是活动图象及其伴音的压缩编码标准,其中 MPEG-1 Part3 (audio)是音频压缩编码。 诞生于1992年 目的是把221Mbits的NTSC图像压缩到1.2Mbits,压缩率为2001。 传输速率为1.5Mbitss,每秒播放30帧,具有CD音质 视频约1.2 Mbits/sec, 音
6、频约0.3 Mbits/sec (CD 唱片的码率: 44,100 samples/sec * 16 bits/sample * 2 channels 1.4 Mbits/sec) 典型应用 VCD,2018/10/12,南京大学多媒体研究所,16,MPEG-1音频编码的性能(1),编码器输入: 取样频率:32kHz、44.1kHz或48kHz 量化精度:16位 数字声音信号带宽: 20-20kHz编码器输出: 码率:32-384 kbps 格式:MPEG-1格式,2018/10/12,南京大学多媒体研究所,17,MPEG-1音频编码的性能(2) (2),提供三个独立的压缩层次: 压缩倍数 码
7、率 延迟时间 语音质量 1 语音质量 2 1 4:1 384 19ms 2 6-8:1 192-256 35ms 2.1-2.6 4+ 3 10-12:1 112-128 59ms 3.6-3.8 4+,2018/10/12,南京大学多媒体研究所,18,MPEG-1音频编码的性能(3),支持4种不同的模式: 单通道(Single channel), 双通道(Dual channel,二个独立的声音信号编码在一个比特流中), 立体声(Stereo, 左右声道的信号分别编码在一个流中) 联合立体声(Joint stereo,利用左、右声道信号的相关性,降低输出比特流的码率)。,2018/10/12
8、,南京大学多媒体研究所,19,MPEG-1音频编码的性能(4),编码后的数据流支持循环冗余校验CRC(cyclic redundancy check)。 支持在数据流中添加其它附加信息。,2018/10/12,南京大学多媒体研究所,20,MPEG-1音频编码的原理,MPEG 1音频是一个子带编码系统,声音数据压缩算法的根据是心理声学模型: 将audio信号分割成32个不同的子频带, 充分利用听觉系统的掩蔽特性(主要是利用频域掩蔽特性), 保留可感知的信号进行编码,而扔掉被掩蔽的信号不进行编码, 计算出以频率为自变量的噪声掩蔽阈值(masking threshold),按照信掩比(SMR)来决定
9、分配给各个子带的量化位数,调节各个不同子带的量化编码。,2018/10/12,南京大学多媒体研究所,21,MPEG-1音频“层1” 编码器,声音数据以“帧”为单位进行编码处理,每一帧包含384个样本,使用的时间-频率变换部件是一个多相滤波器组,所分割得到的32个子带频带都相等, 32个子带各输出12个样本作为一组,按心理声学模型为每组样本进行一次比特分配(0-15bit),用来指出每组样本都使用几位表示,将每组样本的数值乘一个比例因子(6位),使量化器的量化范围能得到充分利用,心理声学模型仅使用频域掩蔽特性,2018/10/12,南京大学多媒体研究所,22,多相滤波器组,输入的 时域信号 (3
10、84样本),输出的 频域信号 (384样本),频域信号 (32个子带,每个子带12个样本),2018/10/12,南京大学多媒体研究所,23,量化器的比特分配算法,根据输出码率决定每一帧样本的比特总数A;然后在不超过总数A的前提下,使这一帧的总掩蔽与噪声之比( NMR)最小; 每个子带的掩蔽与噪声之比NMR为: NMR=SMR-SNR( 其中,SNR是量化器的信噪比,由量化器位数决定;SMR是每个子带的信掩比,由心理声学模型计算 ) 3. 对32个子带分别分配量化位数,计算NMR,使NMR最小; 4. 计算所有量化器输出样本的比特总数,并与A 进行比较; 5. 如果不超过,则增加量化器位数,
11、6. 重复步骤3, 4和5,直至比特总数最接近A为止。,2018/10/12,南京大学多媒体研究所,24,量化器的信噪比SNR,量化器位数 信噪比(db) 量化器位数 信噪比(db)1 0 9 55.932 7.0 10 61.963 16.0 11 67.984 25.28 12 74.015 31.59 13 80.036 37.75 14 86.057 43.84 15 92.018 49.89,2018/10/12,南京大学多媒体研究所,25,32个子带,每个子带各一,MPEG-1音频(层1)的帧结构,用于记录该帧的同步及属性信息,用于检错与纠错的循环冗余码,用于描述分配给该子带的量化
12、比特数目,用于描述该子带的量化比例因子,2018/10/12,南京大学多媒体研究所,26,MPEG-1音频的帧结构,帧的作用:帧是音频数据的组织单位,用于同步、纠错,也有利于存取、编辑。 格式: Header + 音频数据 +(纠错码),2018/10/12,南京大学多媒体研究所,27,MPEG-1音频“层2” 编码器,每1帧包含1152个样本,使用的时间-频率变换部件是一个多相滤波器组,所分割得到的32个子带频带都相等, 32个子带各输出3组样本,每组12个样本。,按心理声学模型为每组样本进行比特分配,且作了一些限制(低频段的子带用4比特,中频段的子带用3比特,高频段的子带用2比特),因而编
13、码更紧凑,将每组样本的数值乘一个比例因子(6位),比例因子可以共享,心理声学模型除使用频域掩蔽特性外,还利用了时间掩蔽特性,2018/10/12,南京大学多媒体研究所,28,MPEG-1音频(层2)的帧结构,比例因子选择信息,决定是否需要以及如何共享比例因子,2018/10/12,南京大学多媒体研究所,29,MPEG-1音频“层3” 编码器,使用混合滤波器组(多相滤波器组+MDCT),把声音频带分成非等宽的接近人耳临界频带划分的32个子带, 心理声学模型除了使用频域掩蔽特性和时间掩蔽特性之外,还考虑了立体声数据的冗余, 每个子带中样本的量化和编码,通过2个嵌套的迭代循环进行优化,采用非均匀量化
14、, 样本在量化处理后,再使用霍夫曼(Huffman)编码进一步压缩数据。,2018/10/12,南京大学多媒体研究所,30,32个子带的划分,借助分析滤波器组把输入信号变换为32个频域子带信号 层1、层2编码器的子带划分是线性的, 层3编码器的子带划分是非线性的,因为人耳的听觉特性是非线性的,是以“临界频带”来划分的。,2018/10/12,南京大学多媒体研究所,31,“层3”音频编码器结构,MDCT(modified discrete cosine transform) 把子带的输出在频域里进一步细分, 以达到更高的频域分辨率,内迭代循环用于码率控制,外迭代循环用于噪音控制,除了使用频域掩蔽
15、特性和时间掩蔽特性之外,还考虑了立体声数据的冗余,2018/10/12,南京大学多媒体研究所,32,MPEG1音频解码器的原理框图,进行差错检测、比特流分解,恢复出各种信息段,恢复被量化的子带样本值以重建声音信号,逆变换模块将这些样本从频率域变换回时间域中均匀的声音样本,2018/10/12,南京大学多媒体研究所,33,小 结,层 1: 每帧一个样本组、子带频宽相等、每帧3212384个样本、仅用到频率掩蔽效应。 层 2:每帧三个样本组、子带频宽相等、每帧321231152个样本、不仅用到频率掩蔽效应,还用到时域掩蔽效应。 层 3: 子带频宽与临界频宽相似, 用到频率掩蔽效应和时域掩蔽效应,
16、考虑到立体声冗余, 采用Huffman编码。,2018/10/12,南京大学多媒体研究所,34,MP3 Audio(音乐),采用MPEG-1层次3编码器的、质量接近或达到CD水平的数字声音(音乐)。 码率: 112kb-128kb/秒 (每分钟约1MB) 。 MP3能以10倍左右的比率降低全频带数字声音PCM编码的存储量,一张普通CD光盘上可以存储大约100首MP3歌曲。 MP3支持声音和数据的复合, 播放声音的同时, 可以在播放器上显示相关的文本信息. MP3的软件播放器: WinAMP,2018/10/12,南京大学多媒体研究所,35,MP3音频的改进: Mp3PRO,Thomson多媒体
17、公司、Fraunhofer协会Coding Technologies公司在2001年6月联合推出了MP3格式的升级版本Mp3PRO。 用Mp3PRO压缩后的MP3文件只有原来的一半,音质比原先的还好.,2018/10/12,南京大学多媒体研究所,36,3 MPEG-2音频,(1) MPEG-2 Audio(ISO/IEC 13818-3),或者称为MPEG-2多通道(Multichannel)声音,又称为MPEG-2 BC (Backward Compatible)。 (2) MPEG-2 AAC (ISO/IEC 13818-7, Advanced Audio Coding),也称为MPEG
18、-2 NBC(Non-Backward-Compatible)标准。,3.1 MPEG-2 Audio(13818-3),2018/10/12,南京大学多媒体研究所,38,MPEG-2 Audio对MPEG-1的扩充,增加了16 kHz, 22.05 kHz和24 kHz采样频率声音的处理, 扩展了编码器的输出速率范围,由32384 kbps扩展到8640 kbps, 增加了声道数,支持5.1声道和7.1声道的环绕立体声。,2018/10/12,南京大学多媒体研究所,39,MPEG-2的环绕立体声,MPEG-2 Audio的“5.1环绕立体声”也称为“3/2-立体声加LFE”, 放音现场前方有
19、3个喇叭 (左、中、右3个声道),后面有2个喇叭(2个环绕声道),“.1”指LFE(low frequency effects),即低频音效加强声道。,2018/10/12,南京大学多媒体研究所,40,MPEG Audio的应用,优点: 声音品质优良 码率范围较宽 多种不同配置 四大应用领域: 广播, 存储, 多媒体 通讯,3.2 MPEG-2 AAC (Advanced Audio Coding) (ISO/IEC 13818-7 ),2018/10/12,南京大学多媒体研究所,42,MPEG-2 AAC的性能,取样频率: 从8 kHz到96 kHz, 编码器输入: 单声道、立体声和多声道声
- 1.请仔细阅读文档,确保文档完整性,对于不预览、不比对内容而直接下载带来的问题本站不予受理。
- 2.下载的文档,不会出现我们的网址水印。
- 3、该文档所得收入(下载+内容+预览)归上传者、原创作者;如果您是本文档原作者,请点此认领!既往收益都归您。
下载文档到电脑,查找使用更方便
2000 积分 0人已下载
下载 | 加入VIP,交流精品资源 |
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 声音 PPT
