GB T 28513-2012 使用低比特率视频通信的手语和唇读实时会话应用配置.pdf
《GB T 28513-2012 使用低比特率视频通信的手语和唇读实时会话应用配置.pdf》由会员分享,可在线阅读,更多相关《GB T 28513-2012 使用低比特率视频通信的手语和唇读实时会话应用配置.pdf(16页珍藏版)》请在麦多课文档分享上搜索。
1、ICS 35.240.99 L 67 GB 中华人民主t./、和国国家标准GB/T 28513-2012 使用低比特率视频通信的手语和唇读实时会话应用配置Application profile-Sign language and lip-reading real-time conversation using low bit-rate video communication CITU-T H. Suppl:1999 ,MOD) 2012-06】29发布2012-10-01实施。,1.9.臼3,.,_07UfiO:i;J. ,-飞苟吧,眉目$ 码防伪中华人民共和国国家质量监督检验检痊总局中国国家
2、标准化管理委员会发布GB/T 28513-2012 目次前言.I-AEA-AnLnLnLPnv巧i77巧inxunxuRunynyn3nununu1A述描术技集试测频求视需语本基求求uu议手熔的要要建如时读力力uuu-u的=习文u唇征辨辨u求料估者议围附述容标用义和特分分度HH要资评施建E性描内的引定语本间间真时步能证考能实的用料术语般性和语手基时空保延同性验参性端户应啧技手一围范语略现能终用展生-33范规术缩再uuuuuuu性UM对对扩iLUUL123456789附GB/T 28513-2012 目。昌本标准按照GBjT1. 1-2009给出的规则起草。本标准使用重新起草法修改采用ITU-T
3、H. supp1(使用低比特率视频通信的手语和唇读实时会话应用配置)(1999年英文版)。本标准与ITU-TH. supp1(1999年英文版)相比在结构上基本一致,内容上的主要不同点在于采用了中国手语和唇读视频序列和中国手语录制的视频测试内容,而ITU-TH. supp1(1999年英文版)中的相应内容是英文手语和唇读。本标准由中华人民共和国工业和信息化部提出。本标准由中国通信标准化协会归口。本标准起草单位:工业和信息化部电信研究院、黑龙江省牡丹江市特殊教育学校、广州残疾人学院、中国广播电视大学。本标准主要起草人:聂秀英、陈曦、刘建梅、盛敏双、陈守刚、陈建。I GB/T 28513-2012
4、 1 范围使用低比特率视频通信的手语和唇读实时会话应用配置本标准规定使用具有或不具有可读语音的手语和唇读,用于人对人会话的视频通信系统所需要的特性。给出了确保成功的会话所需要的性能要求。描述了对手语和唇读性能评估的方法。本标准建议除了相关的视频编码协议外还应考虑的因素。如终端设计以及用做手语和唇读的终端所使用的环境。包括评估手语的视频通信的视频测试序列。本标准适用于使用具有或不具有可读语音的手语和唇读,用于人对人会话的视频通信系统的研发、生产、应用和验收测试。2 规范性引用文件下列文件对于本文件的应用是必不可少的。凡是注日期的引用文件,仅注日期的版本适用于本文件。凡是不注日期的引用文件,其最新
5、版本(包括所有的修改单)使用于本文件。ITU-T G. 1l4 单向传输时间(One-waytransmission time) ITU-T P. 931 多媒体通信延时、同步和帧速率测量(Multimediacommunications delay, synchro-nization and frame rate measurement) ITU-T T.140 文本会话协议(Protocolfor multimedia application text conversation) 3 术语和定义下列术语和定义适用于本文件。3. 1 帧frame视频再现中的一个完整的图像称为帧。在一些系统中
6、,帧由两个半图像构成,每一个图像包含帧的信息中的一半。将这些半图像成为场。4 缩暗语下列缩略语适用于本文件。CIF Common Interchange Format (352 X 288 pixels) 公共互换格式(352X 288像素)fps frames per second; pict盯esper second 每秒的帧数E每秒图像数QCIF Quarter CIF (176 X 144 pixels) SQCIF Sub QCIF (112 X 96 pixels) VHS Video Home Syetem 四分之一CIF(176X144像素)子QCIF(112X96像素)家用录
7、像系统1 GB/T 28513-2012 5 再现手语和唇读的基本需求5. 1 基本特征手语的构件是手、眼、嘴、脸和身体的运动和位置。在唇读中,构件是脸的运动。通常情况下声音支持唇读。在其他情况下,是手语的组合。也有一些聋人不使用手语而仅仅依靠唇读交谈。在视频编码领域中,具有一个(用手势的)示意者或讲话者的情景可以被认为是包含有中到多的运动内容。5.2 时间分辨力要求手语和唇读均需要好的运动视觉再现。若系统使用均匀分布的图片来再现运动,可以观察到如下一些情况: 当帧速为20fps 时,手语和唇读的可用性为好。 在有某些约束时,可以使用从12fps到更高的帧速。 对于使用唇读进行会话,当帧速不超
8、过15fps时,随着帧速的增加,可用性急剧增加。当帧速高于15fps时,随着帧速的增加,可用性继续增加,但不明显。 当帧速在8fps和12fps之间时,可用性受到很大限制,语义表达能力严重下降。 当帧速低于8fps时,对于唇读和手语没有实际的可用性。5.2. 1 用指语字母交谈或交流手语是一种字母表中的每一个字母对应一个特定于位置的技术。对于不同国家,于语位置是不同的。通过以快速次序显示这些位置以形成词语来实现。这些拼写的词通常是主要手语不包含的名称和其他特定的名词。手语在日常应用情况下速度一般为每秒最多使用10个字符。为可靠再现手语,每个字符至少应再现两个图形。因此,清晰地再现于语需要每秒至
9、少显示20帧图像。5.2.2 一般的手语用指语字母交谈或交流仅是手语的一部分。手语的较大部分是通过标记来表示完整的概念、部分句子、语法和普通的名词。世界上有许多种子语。即使这些手语是不同的,本标准中相关描述将尽可能足够接近公共概念,使本标准对这些于语均有效。同样,在一般的手语期间,快速的手运动同时出现的短的眼睛闪动也携带语法信息。在许多情况下,时间分辨力需要类似于用指语字母交谈或交流需要的那些需求。5.2.3 居读对于唇读的一般图形需求可以从一般语言的音素计算出来。一般速度是每秒10个音素。为使观看者观察到可见的音素,每秒应再现至少20帧图片。5.2.4 适应在唇读和于语的两种情况下,语言再现
10、的速度可以根据意愿适当降低。这就解释了在一些特定情况下可以使用每秒12帧15帧的原因。有经验的唇读者和于语使用者也具有根据以往经验和相关冗余信息猜测出具体语义的能力。对于部分用户而言,可能会在连接上使用比上面所列出的质量要求低一些的短会话。2 GB/T 28513-2012 5.2.5 帧率要求分析对测试序列广播电视速度手语视频需要进一步解释分析。表1给出测试序列广播电视速度手语视频中的用手语交谈或交流序列的近似表示。图1中给出了该序列的图形。表1每秒25帧和12.5盹下以帧表示的用手语交谈或交流举例帧号96 100 105 110 115 25 fps 昕昕昕昕力语语语康康康康康技技技技技l
11、3 主r吃日圭fii 主复复复复复术术术术术12.5 fps 听昕语言i康复悻复技术陆术帧号120 125 130 135 140 25 fps 技技技学学学学学学学是专专专专术术术院院院院院院院12.5 fps 技技学学学是专专术术院院院帧号145 150 25 fps 专专专门门门门12.5 fps 专专门门表1中第一行的数字是序列开始的帧数。文字指示由手语表示的情况。破折号表示在文字之间转换时构成的不清楚的图片。例子中的字是一句话中摘录的一部分听力语言康复技术学院是专门。在每秒2.5帧的情况下,这9个字或词语之中,有2个在一帧中清晰可见,因而可能有丢失的危险。这种情况在编码方案中每隔一帧
12、跳过一帧时出现。在该表的较低一行中给出了12.5fps抽样的情况。该行表明最初的昕力语言康复技术学院是专门语句中仅保留了昕语言康复技术学院是专门。这清楚地表明了在帧率低于20年s时出现的语言内容丢失的情况。在25fps序列中,字或词语的分布情况如下:在1帧中出现的字或词语个数2个;在2帧中出现的字或词语个数0个;在3帧中出现的字或词语个数1个;在4帧中出现的字或词语个数2个;在5帧中出现的字或词语个数1个;在7帧中出现的字或词语个数2个;在8帧中出现的字或词语个数1个。短语中的平均长度是:每个字或词语4.4帧。小结在该例子中,在时间上,语句中的字或词语在1到8帧之间变化,每一帧表示40ms。每
13、一个字母可见的平均长度是4.4帧。该例子没有足够长来表示所有实际的统计结果。然而,这个例子可以表明,该用指语字母交谈或交流25年s的帧率是足够的了,而12.5年s的帧率需要一些猜测才能确定字或词语。3 GB/T 28513-2012 图1包含有用手语交谈或表示每秒25帧记录的词语昕力语言康复技术学院是专门的各帧4 GB/T 28513-2012 图1(续)5 GB/T 28513-2012 图1(续)一般标记视频序列广播电视速度手语视频没有采用指语汉语拼音交谈或表示的符号来标记。通过对其中一个短语进行简单的分析。可将广播电视速度手语视频序列的354和第412帧之间的帧序列短语描述为面向(5)全
14、(3)国(5)招(的收(5)高中(6)毕(6)业(7)生(4)(在圆括号中逐符号地每一标记所占的帧数描述出来)。在该序列中没有一个符号少于2帧,同时没有包含比用指语汉语拼音交谈或表示更快的运动。一些标记包含较大的运动因而对视频编码施加了不同的要求。5.2.6 时间分辨力颗粒在大多数情况下,视频摄像机用于遵循一般的视频标准的视频通信。这意味着,它们每秒钟输出25或30帧。该事实引入了一个有用的帧数速率颗粒度。在使用这类摄像机时,不需要考虑帧速是在12.5 fps和25fps之间或是在15fps和30fps之间。这类中间帧速意味着源图片间隔将分别在40ms 和80ms之间或在33ms和66ms之间
15、变化,这样会引人丢失一些运动细节的危险。因此可得出结论为满足目标帧率每秒20帧的要求,一般摄像机应是每秒25帧或30帧。5.3 空间分辨力要求用于人对人手语通话的空间分辨力要求如下: 可以使用QCIF分辨力,但是将丢失显示眼睛凝视方向的最小细节。这将引起对观察者的额外压力。 CIF较好。从QCIF增加到CIF图像将传达出较完整的语义信息。 对于可靠的接收,SQCIF太粗糙,此时一些标记可能偶尔会被感觉到。若对于图片的不同部分使用不同的分辨力,手和脸将需要最高的分辨力。在这类配置下,需要注意不要在图片的其他部分引人失真,因为这些失真可能会误导观察者。可以进行简单的理论验证。在从头到胃部的视觉范围
- 1.请仔细阅读文档,确保文档完整性,对于不预览、不比对内容而直接下载带来的问题本站不予受理。
- 2.下载的文档,不会出现我们的网址水印。
- 3、该文档所得收入(下载+内容+预览)归上传者、原创作者;如果您是本文档原作者,请点此认领!既往收益都归您。
下载文档到电脑,查找使用更方便
5000 积分 0人已下载
下载 | 加入VIP,交流精品资源 |
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- GB 28513 2012 使用 比特率 视频 通信 手语 实时 会话 应用 配置
