多媒体技术及其新发展.ppt
《多媒体技术及其新发展.ppt》由会员分享,可在线阅读,更多相关《多媒体技术及其新发展.ppt(58页珍藏版)》请在麦多课文档分享上搜索。
1、多媒体技术及其新发展,华中科技大学计算机学院 鲁宏伟,报告提纲,什么是多媒体 语音处理技术 图像、视频处理技术 多媒体人机交互技术 多媒体信息检索 多媒体传输(流媒体和P2P) 未来的发展,1,一什么是多媒体,2,什么是多媒体,1人类生活发生的变化,什么是多媒体,视听 电视、电影:形式、渠道 音乐:Walkman、CD Player、MP3 存储 通信手段 电话:固定电话、移动电话、网络 文字:电报、Email 内容:文字、话音、视频 学习方式 图书馆、教室 电视教学、远程教学,3,2什么改变了我们的生活,什么是多媒体,网络 33.6K Modem、ISDN、ADSL ATM、IP 有线网络、
2、无线网络 计算机 无硬盘计算机、386、486、586 单核处理器、多核处理器 CRT显示器、液晶、等离子体 多媒体技术,4,2什么是多媒体,什么是多媒体,“多媒体”译自20世纪80年代初产生的英文词“multimedia”,最早出现于美国麻省理工学院(MIT)递交给国防部的一个项目计划报告中。 多媒体是指信息表示媒体的多样化,常见的多媒体有文字、图形、图像、声音、音乐、视频、动画等多种形式。 多媒体技术是利用计算机技术把文本、声音、视频、动画、图形和图像等多种媒体进行综合处理,使多种信息之间建立逻辑连接,集成为一个完整的系统。,二语音处理技术,5,语音处理技术,语音处理技术包括语音识别、说话
3、人的鉴别和确认、语种的鉴别和确认、关键词检测和确认、语音合成、语音编码等,其中最具有挑战性和最富有应用前景的是语音识别技术。,1声音的特点,声音是重要的信息表现手段,自然科学家们关于声音的研究清楚地表明:“声音是弹性媒质中的一种机械扰动、弹性媒质包括固体、液体和气体。机械扰动是指媒质的某种性质(譬如压力、质点位移或密度)发生了可以用仪器检测出来或者可被人听到的交替变化。”,6,语音处理技术,2声音处理技术,音频压缩技术 三维音效技术 语音识别技术 语音合成技术,声音的特点,声音是一种弹性波,声音信号可以分成周期信号与非周期信号两类。 声音的质量与声音的频率范围有关。人的听觉器官能感知的频率范围
4、为2020000Hz ,能感知的声音幅度范围在0120dB之间,而人的发音器官能够发出的声音频率范围为803,400Hz。,语音处理技术,1分钟数字音频信号需要的存储空间,语音处理技术,音频压缩技术,音频文件格式 主要用在PC上的以.wav为扩展名的文件格式 主要用在Unix工作站上的以.au为扩展名的文件格式 主要用在苹果机和美国视算科技有限公司的工作站上的以.aiff和.snd为扩展名的文件格式 目前流行的格式.rm、.mp3、.wma语音压缩标准 G.711、G.723.1、GSM、MPEG Audio Layer 3(MP3)语音压缩技术,语音处理技术,音频压缩技术,音频压缩技术指的是
5、对原始数字音频信号流(PCM编码)运用适当的数字信号处理技术,在不损失有用信息量,或所引入损失可忽略的条件下,降低(压缩)其码率,也称为压缩编码。它必须具有相应的逆变换,称为解压缩或解码。音频信号在通过一个编解码系统后可能引入大量的噪声和一定的失真。 研究发现,直接采用PCM码流进行存储和传输存在非常大的冗余度。事实上,在无损的条件下对声音至少可进行4:1压缩,即只用25的数字量保留所有的信息,语音处理技术,MP3音频压缩编码,MP3是一种音频压缩的国际技术标准。MP3格式开始于二十世纪80年代中期,是在德国夫朗和费研究所(Fraunhofer Institute)开始的,研究致力于高质量、低
6、数据率的声音编码 MP3格式是一个让音乐界产生巨大震动的一个声音格式。MP3的全称是Moving Picture Experts Group, Audio Layer 3,它所使用的技术是在VCD(MPEG-1)的音频压缩技术上发展出的第三代,而不是MPEG-3。 MP3的压缩率则高达10:112:1,也就是说一分钟CD音质的音乐未经压缩需要10MB存储空间,而经过MP3压缩编码后只有1MB左右,同时其音质基本保持不失真。,语音处理技术,三维音效,日常生活中,我们用两只耳朵来听东西,从各处音源中获得信息,再通过人脑的计算来定位声音。计算机模拟人脑的3D(三维)音效计算,通过数字音源播放出来,让
7、我们感到自己处身于虚拟的世界。 既然在现实世界中,我们可以用一双耳朵分辨出3D音场,那么仅靠贴近耳朵的两只耳机也能实现近似效果。用两只扬声器也可以吗?,语音处理技术,三维音效,人耳的基本声音定位原理是IID(两侧声音强度差别)和ITD(两侧声音时间延迟差别)。 耳廓(外耳)的作用是滤波器,根据声音的不同角度,加强/减弱音波能量,过滤之后传给大脑,让我们更准确地确定声源的位置。 许多时候,我们听到的声音并不是直线进入耳朵,而是通过了几次反射才进入大脑。在音波行进的过程中,音波能量会减弱,再加上反射造成的消音和延迟作用,声音已经有了变化,这种反射混合起来的效果称为交互混响。 模拟3D音效需要还原以
8、上定位效果:IID、ITD、耳廓、反射,并分析不同角度声音发生的变化,通过计算机模拟合成来建立一种虚拟声音系统-数字化音场。,语音处理技术,3D音效的分类,扩展式立体声 它使用声音延迟技术对传统的立体声进行额外处理,扩宽了音场的位置,使声音延展到音箱以外的空间,让我们感觉的3D世界更广阔。 环绕立体声 它采用音频压缩技术(如:杜比AC-3)把多通道音源编码成一段程序,再以一组多扬声器系统来进行解码,实现多区域环绕效果。这也是一种被动播放音轨的技术,最适合于电影播放。 交互式3D音效 交互式3D尽量地复制了人耳在真实世界中听到的声音,并使用一定的算法来播放出来,让我们感到整个三维空间的所有地方都
9、可能产生声音,并随听者的移动而做出相应改变。它是最接近实际生活的3D音效,通常应用于第一人称3D游戏。,语音处理技术,语音识别,“让计算机能和人类自由交流”一直是人们的梦想,语言是描述人类思维的工具之一,因此将人类语言和计算机联系起来,应当是实现这一梦想的重要一步。 语音识别技术是语音处理技术中最具有挑战性和最富有应用前景的技术。 语音识别是一个多学科交叉的领域,它与声学、语音学、语言学、数字信号处理理论、信息论、计算机科学等众多学科紧密相连。 由于语音信号的多样性和复杂性,目前的语音识别系统只能在一定的限制条件下获得满意的性能,或者说只能应用于某些特定的场合。语音识别系统的性能大致取决于4类
10、因素:1. 识别词汇表的大小和语音的复杂性;2. 语音信号的质量;3. 单个说话人还是多说话人;4. 硬件。,语音处理技术,语音识别系统的原理框图,语音处理技术,IBM语音识别输入系统 ViaVoice Pro 9.1,该系统可用于声控打字和语音导航。只要对着微机讲话,不用敲键盘即可打汉字,每分钟可输入150个汉字,是键盘输入的两倍,是普通手写输入的六倍。该系统识别率可达95%以上。 IBM潜心研究26年,领导了世界的语音识别技术,其语音识别产品在全球销售已达一百万套以上。,语音处理技术,自然语言理解,自然语言理解(NLU,Natural Language Understanding)就是研究
11、如何能让计算机理解并生成人们日常所使用的(如汉语、英语)语言,使得计算机懂得自然语言的含义,并对人给计算机提出的问题,通过对话的方式,用自然语言进行回答。 自然语言处理的核心技术是语言分析技术,即将句子(数量无限)变换成由词语(数量可控)及其抽象形式(数量有限)构成的用某种数据结构(句法树、复杂特征集或语义网络)表示的内部形式(数量有限)。 语言分析可以划分为词法析、句法分析、语义分析、篇章分析等步骤。现在,词法分析和句法分析相对成熟,语义分析逐渐成为研究重点。,语音处理技术,语音合成,语音合成是以言语产生模型为基础,分析抽取激励源,声道的特征参数;再利用这些特征参数重新综合出语音信号的过程。
12、 语音合成是通过一个声学模块来具体实现的。早期的语音合成技术的研究,往往集中在语音合成算法本身,其研究的方法和手段与语音编码有很多相似之处。其声学模型的构筑,也多通过模拟人的口腔的声道特性来产生。 进入20世纪90年代以来,波形拼接(PSOLA,Pitch Synchronous OverLap Add) 算法,越来越被广泛地应用在语音合成系统中。 近年来,一些新的方法,如人工神经网络、决策树、隐马尔可夫模型等被广泛地应用于语音合成技术。这些方法的运用,彻底改变了汉语语音合成研究的研究重点,使汉语语音合成的研究突破了早期重点对单纯算法的研究,而变成一个系统工程的研究。,语音处理技术,TTS,T
13、TS即文本语音转换技术(Text To Speech),它涉及声学、语言学、数学信号处理技术、多媒体技术等多个学科技术,是中文信息处理领域的一项前沿技术,实现把计算机中任意出现的文字转换成自然流畅的语音输出。,语音处理技术,视觉语音,视觉语音是指人们在用语言交流时所表达出的面部表情和动作,它能在一定程度上传达人们想要表达的意思,并能帮助人们加深对语言的理解。 研究表明,在环境噪声较大或听者有听力障碍的情况下,如果在给出声音信息的同时能给出一个“讲话的头”(talking head),即表现说话者面部表情和嘴部、眼部等变化情况,则会大大改善人们对声音的理解。,语音处理技术,三图像、视频处理技术,
14、5,图像、视频处理技术,图像处理,图像处理根据处理的程度和目的,可以分为三个层次:图像处理、图像分析识别和图像理解,图像、视频处理技术,图像处理,图像编码格式:GIF,JPEG,PNG 图像编码标准:JPEG、JPEG2000,图像、视频处理技术,数字视频处理,数字视频含有丰富的内容,结构复杂,不同于传统的字符型数据,主要表现在以下几个方面: 视频数据量大:一幅中等分辨率的图像(640*480),颜色为24bit/象素,数字视频图像的数据量大约为1MB,如播放速度每秒30帧,则1秒的数据量约为30MB,一个600MB的硬盘也只能存放20s的动态图像。 视频数据内容的多样性 视频数据解释的多样性
- 1.请仔细阅读文档,确保文档完整性,对于不预览、不比对内容而直接下载带来的问题本站不予受理。
- 2.下载的文档,不会出现我们的网址水印。
- 3、该文档所得收入(下载+内容+预览)归上传者、原创作者;如果您是本文档原作者,请点此认领!既往收益都归您。
下载文档到电脑,查找使用更方便
2000 积分 0人已下载
下载 | 加入VIP,交流精品资源 |
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 多媒体技术 及其 新发展 PPT
