欢迎来到麦多课文档分享! | 帮助中心 海量文档,免费浏览,给你所需,享你所想!
麦多课文档分享
全部分类
  • 标准规范>
  • 教学课件>
  • 考试资料>
  • 办公文档>
  • 学术论文>
  • 行业资料>
  • 易语言源码>
  • ImageVerifierCode 换一换
    首页 麦多课文档分享 > 资源分类 > PDF文档下载
    分享到微信 分享到微博 分享到QQ空间

    ITU-T P 50 SPANISH-1999 Artificial voices《仿真口声 12号研究组 承包单 5 25 2000》.pdf

    • 资源ID:800570       资源大小:264.70KB        全文页数:21页
    • 资源格式: PDF        下载积分:10000积分
    快捷下载 游客一键下载
    账号登录下载
    微信登录下载
    二维码
    微信扫一扫登录
    下载资源需要10000积分(如需开发票,请勿充值!)
    邮箱/手机:
    温馨提示:
    如需开发票,请勿充值!快捷下载时,用户名和密码都是您填写的邮箱或者手机号,方便查询和重复下载(系统自动生成)。
    如需开发票,请勿充值!如填写123,账号就是123,密码也是123。
    支付方式: 支付宝扫码支付    微信扫码支付   
    验证码:   换一换

    加入VIP,交流精品资源
     
    账号:
    密码:
    验证码:   换一换
      忘记密码?
        
    友情提示
    2、PDF文件下载后,可能会被浏览器默认打开,此种情况可以点击浏览器菜单,保存网页到桌面,就可以正常下载了。
    3、本站不支持迅雷下载,请使用电脑自带的IE浏览器,或者360浏览器、谷歌浏览器下载即可。
    4、本站资源下载后的文档和图纸-无水印,预览文档经过压缩,下载后原文更清晰。
    5、试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓。

    ITU-T P 50 SPANISH-1999 Artificial voices《仿真口声 12号研究组 承包单 5 25 2000》.pdf

    1、 UNIN INTERNACIONAL DE TELECOMUNICACIONES P.50SECTOR DE NORMALIZACIN DE LAS TELECOMUNICACIONES DE LA UIT (09/99) SERIE P: CALIDAD DE TRANSMISIN TELEFNICA, INSTALACIONES TELEFNICAS Y REDES LOCALES Aparatos para mediciones objetivas Voces artificiales Recomendacin UIT-T P.50 (Anteriormente Recomendaci

    2、n del CCITT) RECOMENDACIONES UIT-T DE LA SERIE P CALIDAD DE TRANSMISIN TELEFNICA, INSTALACIONES TELEFNICAS Y REDES LOCALES Para ms informacin, vase la Lista de Recomendaciones del UIT-T.Vocabulario y efectos de los parmetros de transmisin sobre la opinin de los clientes Serie P.10 Lneas y aparatos d

    3、e abonado Serie P.30 P.300 Patrones de transmisin Serie P.40 Aparatos para mediciones objetivas Serie P.50 P.500 Medidas electroacsticas objetivas Serie P.60 Medidas relativas a la sonoridad vocal Serie P.70 Mtodos de evaluacin objetiva y subjetiva de la calidad Serie P.80 P.800 Calidad audiovisual

    4、en servicios multimedios Serie P.900 Recomendacin P.50 (09/99) i RECOMENDACIN UIT-T P.50 VOCES ARTIFICIALES Resumen La “voz artificial“ descrita en esta Recomendacin reproduce las caractersticas de la voz humana, para la caracterizacin de los sistemas y dispositivos de telecomunicaciones, lineales y

    5、 no lineales, diseados para la transduccin o la transmisin de seales vocales. La voz artificial es una seal matemticamente definida que reproduce las caractersticas temporales y espectrales de la voz que afectan significativamente al funcionamiento de los sistemas de telecomunicacin. Se definen dos

    6、categoras de voz artificial, que reproducen respectivamente las caractersticas de la voz femenina y masculina. Orgenes La Recomendacin UIT-T P.50, ha sido revisada por la Comisin de Estudio 12 (1997-2000) del UIT-T y fue aprobada por el procedimiento de la Resolucin N. 1 de la CMNT el 30 de septiemb

    7、re de 1999. Recomendacin P.50 (09/99) iiPREFACIO La UIT (Unin Internacional de Telecomunicaciones) es el organismo especializado de las Naciones Unidas en el campo de las telecomunicaciones. El UIT-T (Sector de Normalizacin de las Telecomunicaciones de la UIT) es un rgano permanente de la UIT. Este

    8、rgano estudia los aspectos tcnicos, de explotacin y tarifarios y publica Recomendaciones sobre los mismos, con miras a la normalizacin de las telecomunicaciones en el plano mundial. La Conferencia Mundial de Normalizacin de las Telecomunicaciones (CMNT), que se celebra cada cuatro aos, establece los

    9、 temas que han de estudiar las Comisiones de Estudio del UIT-T, que a su vez producen Recomendaciones sobre dichos temas. La aprobacin de Recomendaciones por los Miembros del UIT-T es el objeto del procedimiento establecido en la Resolucin N. 1 de la CMNT. En ciertos sectores de la tecnologa de la i

    10、nformacin que corresponden a la esfera de competencia del UIT-T, se preparan las normas necesarias en colaboracin con la ISO y la CEI. NOTA En esta Recomendacin, la expresin empresa de explotacin reconocida (EER) designa a toda persona, compaa, empresa u organizacin gubernamental que explote un serv

    11、icio de correspondencia pblica. Los trminos Administracin, EER y correspondencia pblica estn definidos en la Constitucin de la UIT (Ginebra, 1992). PROPIEDAD INTELECTUAL La UIT seala a la atencin la posibilidad de que la utilizacin o aplicacin de la presente Recomendacin suponga el empleo de un dere

    12、cho de propiedad intelectual reivindicado. La UIT no adopta ninguna posicin en cuanto a la demostracin, validez o aplicabilidad de los derechos de propiedad intelectual reivindicados, ya sea por los miembros de la UIT o por terceros ajenos al proceso de elaboracin de Recomendaciones. En la fecha de

    13、aprobacin de la presente Recomendacin, la UIT no ha recibido notificacin de propiedad intelectual, protegida por patente, que puede ser necesaria para aplicar esta Recomendacin. Sin embargo, debe sealarse a los usuarios que puede que esta informacin no se encuentre totalmente actualizada al respecto

    14、, por lo que se les insta encarecidamente a consultar la base de datos sobre patentes de la TSB. Ge3 UIT 2000 Es propiedad. Ninguna parte de esta publicacin puede reproducirse o utilizarse, de ninguna forma o por ningn medio, sea ste electrnico o mecnico, de fotocopia o de microfilm, sin previa auto

    15、rizacin escrita por parte de la UIT. Recomendacin P.50 (09/99) iii NDICE Pgina 1 Introduccin 1 2 Alcance, objeto y definicin . 1 2.1 Alcance y objeto 1 2.2 Definicin . 2 3 Terminologa. 2 3.1 voz artificial elctrica 2 3.2 seal de excitacin de la boca artificial 2 3.3 voz artificial acstica 2 4 Caract

    16、ersticas. 3 4.1 Espectro medio a largo plazo 3 4.2 Espectro a corto plazo. 3 4.3 Distribucin de amplitudes instantneas. 4 4.4 Distribucin del nivel de potencia por segmentos 4 4.5 Espectro de la envolvente de modulacin. 5 4.6 Convergencia temporal . 6 5 Mtodo de generacin. 6 5.1 Seal de fuente de ex

    17、citacin 7 5.2 Excitacin glotal . 7 5.3 Sonidos no vocalizados. 7 5.4 Envolvente de potencia. 8 5.5 Filtro de conformacin del espectro . 9 6 Bibliografa . 12 Anexo A Caractersticas del espectro a corto plazo de la voz artificial 12 Recomendacin P.50 (09/99) 1 Recomendacin P.50 VOCES ARTIFICIALES (Mel

    18、bourne, 1988; modificada en Helsinki, 1993; Ginebra, 1999) 1 Introduccin La seal descrita a continuacin reproduce las caractersticas de la voz humana, para la caracterizacin de los sistemas y dispositivos de telecomunicaciones, lineales y no lineales, diseados para la transduccin o la transmisin de

    19、seales vocales. Se sabe que para ciertos fines, tales como las mediciones objetivas de ndices de sonoridad, pueden utilizarse igualmente seales ms sencillas. Ejemplos de tales seales son el ruido rosa o el ruido gaussiano de espectro conformado; para los fines de esta Recomendacin tales seales no po

    20、drn denominarse “voces artificiales“. La voz artificial es una seal matemticamente definida que reproduce las caractersticas temporales y espectrales de la voz que afectan significativamente al funcionamiento de los sistemas de telecomunicacin. Se definen dos categoras de voz artificial, que reprodu

    21、cen respectivamente las caractersticas de la voz masculina y femenina. La voz artificial reproduce las siguientes caractersticas temporales y espectrales de la voz humana: a) espectro medio a largo plazo; b) espectro a corto plazo; c) distribucin de amplitudes instantneas; d) estructura vocalizada y

    22、 no vocalizada de la forma de onda vocal; e) envolvente silbica. El apndice I/P.50 incluye un CD-ROM que contiene seales de prueba de utilidad. Las seales de este CD-ROM incluyen la seal descrita en la Recomendacin P.50 y otras seales que han sido consideradas de utilidad por algunas Administracione

    23、s. Adems, la base de datos vocales completa que se utiliz para elaborar la Recomendacin P.50 figura tambin en este CD-ROM. El apndice I/P.50 se publica aparte. 2 Alcance, objeto y definicin 2.1 Alcance y objeto La voz artificial tiene por objeto reproducir las caractersticas de la voz humana en la b

    24、anda de 100 Hz a 8 kHz. Se puede utilizar para caracterizar muchos dispositivos, por ejemplo, micrfonos de carbn, aparatos telefnicos con altavoz, codificadores no lineales, dispositivos de control del eco, compansores silbicos y sistemas no lineales, en general. La voz artificial descrita en esta R

    25、ecomendacin se utiliza principalmente para la evaluacin objetiva de los sistemas y dispositivos de procesamiento de la palabra en los cuales una seal monocanal con actividad continua (es decir, sin pausas) basta para medir las caractersticas. Un ejemplo es la evaluacin de los codecs de seales vocale

    26、s. Para las evaluaciones objetivas que requieren dos seales con pausas (por ejemplo, evaluacin de dispositivos con detectores de habla), debe utilizarse la seal de habla conversacional artificial descrita en la Recomendacin P.59. La utilizacin de voz artificial en vez de la humana tiene las ventajas

    27、 tanto de una generacin ms sencilla como de una menor variedad de muestras que la voz humana. Recomendacin P.50 (09/99) 2Por supuesto, cuando se prueba un sistema dado, deben considerarse las caractersticas del trayecto de transmisin que le precede. Hay que producir entonces la seal real de prueba c

    28、omo una convolucin entre la voz artificial y la respuesta en el trayecto. 2.2 Definicin La voz artificial es una seal matemticamente definida, que reproduce todas las caractersticas de la voz humana apropiadas para la caracterizacin de los sistemas de telecomunicacin lineales y no lineales. Su objet

    29、o es proporcionar una correlacin satisfactoria entre las medidas objetivas y las pruebas con voz humana. 3 Terminologa Se puede producir la voz artificial en forma de seal elctrica o acstica, segn el sistema o dispositivo probado (canales de comunicacin, codificadores, micrfonos). Las siguientes def

    30、iniciones se refieren a las seales de la leyenda de la figura 1. 123T1206110-93EcualizadorBocaartificialMRP1 Voz artificial elctrica2 Seal de excitacin de la boca artificial3 Voz artificial acsticaMRP punto de referencia boca (mouth reference point)Figura 1/P.50 3.1 voz artificial elctrica Voz artif

    31、icial producida como una seal elctrica para probar canales de transmisin u otros dispositivos elctricos. 3.2 seal de excitacin de la boca artificial Seal aplicada a la boca artificial para producir la voz artificial acstica. Se obtiene ecualizando la voz artificial elctrica para compensar la caracte

    32、rstica sensibilidad/frecuencia de la boca. NOTA La ecualizacin depende de la boca artificial que se emplee y se puede efectuar elctrica o matemticamente dentro del proceso de generacin de seales. 3.3 voz artificial acstica Seal acstica en el punto de referencia boca (MRP), de la boca artificial. Se

    33、ajusta a las caractersticas temporales y espectrales de la voz artificial elctrica. Recomendacin P.50 (09/99) 3 4 Caractersticas 4.1 Espectro medio a largo plazo En la figura 2 y en el cuadro 1 se indica el espectro medio a largo plazo de la voz artificial filtrado a un tercio de octava, normalizado

    34、 para un nivel de presin sonora en banda ancha de 4,7 dBPa. Los valores del espectro a largo plazo de la voz artificial en el MRP pueden deducirse de la ecuacin: S( f ) = 376,44 + 465,439(log10f ) 157,745(log10f )2+ 16,7124(log10f )3(4-1) donde S( f ) es la densidad espectral en dB, con respecto a u

    35、na intensidad sonora de 1 pW/m2por hertzios a la frecuencia f. La gama de frecuencias de definicin va de 100 Hz a 8 kHz. La figura 2 muestra la curva del espectro. Los valores de S( f ) para frecuencias ISO a un tercio de octava vienen dados en la cuarta columna del cuadro 1. Las tolerancias vienen

    36、dadas en la quinta columna del cuadro 1. Las tolerancias por debajo de 200 Hz se aplicarn nicamente a la voz artificial masculina. El nivel total de la presin sonora del espectro definida en la ecuacin (4-1) es de 4,7 dBPa. No obstante, este espectro es aplicable tambin para los niveles comprendidos

    37、 entre 19,7 y +10,3 dBPa. En otras palabras, el primer trmino de la ecuacin (4-1) puede estar comprendido entre 391,44 y 361,44. T1206120-93)HzPa(dB7060504030201070605040302010dBPa1 2 3 4 5 6 7 8 10 kHza)b)0,1 0,2 0,3 0,4 0,6 0,8a)b)Espectro a un tercio de octava columna (3) del cuadro 1.Densidad es

    38、pectral columna (3)-(2) del cuadro 1.Figura 2/P.50 Espectro a largo plazo de la voz artificial 4.2 Espectro a corto plazo Las caractersticas espectrales de las voces artificiales masculina y femenina se describen en el anexo A. Recomendacin P.50 (09/99) 44.3 Distribucin de amplitudes instantneas La

    39、distribucin de la densidad de probabilidad de la amplitud instantnea de la voz artificial aparece en la figura 3. 4.4 Distribucin del nivel de potencia por segmentos La figura 4 muestra la distribucin del nivel de potencia por segmentos de la voz artificial, medida en ventanas de tiempo de 16 ms. Ta

    40、mbin se indican los lmites superiores e inferiores de tolerancia. NOTA El lmite superior de tolerancia representa la distribucin tpica del nivel de potencia por segmentos de la conversin normal, mientras que el lmite inferior representa la palabra continua (frases telefonomtricas). Cuadro 1/P.50 Esp

    41、ectro a largo plazo de la voz artificial Frecuencia central del tercio de octava (Hz) (1) Factor de correccin de anchura de banda10 log10f (dB) (2) Nivel de presin sonora (tercio de octava)(dBPa) (3) Densidad espectral (dB) (3) (2) Tolerancia (dB) 100 13,6 23,1 36,7 125 14,6 19,2 33,8 +3, 6a)160 15,

    42、6 16,4 32,7 +3, 6a)200 16,6 14,4 31,7 +3, 6 250 17,6 13,4 31,7 3,0 315 18,6 13,0 31,6 3,0 400 19,6 13,3 32,9 3,0 500 20,6 14,1 34,7 3,0 630 21,6 15,4 37,7 3,0 800 22,6 17,0 39,6 3,0 1000 23,6 18,9 42,5 3,0 1250 24,6 21,0 45,6 3,0 1600 25,6 23,0 48,6 3,0 2000 26,6 25,1 51,7 3,0 2500 27,6 26,9 54,5 3,

    43、0 3150 28,6 28,6 57,2 3,0 4000 29,6 29,8 59,4 6,0 5000 30,6 30,6 61,2 6,0 6300 31,6 30,9 62,5 6,0 8000 32,6 30,5 63,1 a)Las tolerancias dadas se aplican al espectro a largo plazo de la voz masculina y deben satisfacerse igualmente por los ruidos conformados por seales vocales. Sin embargo no se apli

    44、can al espectro vocal femenino, cuyo contenido energtico en esta gama de frecuencias es virtualmente despreciable. Recomendacin P.50 (09/99) 5 4.5 Espectro de la envolvente de modulacin En la figura 5 se muestra el espectro de la forma de onda de la envolvente de modulacin que debera reproducirse co

    45、n una tolerancia de 5 dB en toda la gama de frecuencias. T1206130-9301234561| x | / Xrms| x |Xrms0,010,1DensidaddeprobabilidadValor absoluto de la amplitud instantneaValor cuadrtico medio de la seal (valor eficaz)Figura 3/P.50 Distribucin de amplitudes instantneas 60010203040506070809010050 40 30 20

    46、 10 0 10 20%dBT1206140-93Distribucin acumulativaNivel de potencia con respecto al valor cuadrtico medioDistribucin del nivel de potencia por segmentos(longitud de la ventana 16 ms)Figura 4/P.50 Distribucin del nivel de potencia por segmentos Recomendacin P.50 (09/99) 6T1206150-930 1020304050Hz10dBNi

    47、velde laenvolventedemodulacinFrecuenciaFigura 5/P.50 Espectro de la envolvente de modulacin 4.6 Convergencia temporal La voz artificial debe tener unas caractersticas lo ms semejantes posible a la voz humana. En especial, debera ser posible obtener las caractersticas de espectro a largo plazo y de d

    48、istribucin de amplitudes en 10 segundos. 5 Mtodo de generacin La figura 6 muestra un diagrama de bloques del proceso de generacin de la voz artificial. Se genera aplicando dos tipos diferentes de seales de fuente de excitacin, una seal de excitacin glotal y un ruido aleatorio, a un filtro de conformacin del espectro de respuesta variable con el tiempo. La voz artificial generada por la seal de excitacin glotal y por el ruido aleatorio corresponde respectivamente a los sonidos vocalizados


    注意事项

    本文(ITU-T P 50 SPANISH-1999 Artificial voices《仿真口声 12号研究组 承包单 5 25 2000》.pdf)为本站会员(sumcourage256)主动上传,麦多课文档分享仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知麦多课文档分享(点击联系客服),我们立即给予删除!




    关于我们 - 网站声明 - 网站地图 - 资源地图 - 友情链接 - 网站客服 - 联系我们

    copyright@ 2008-2019 麦多课文库(www.mydoc123.com)网站版权所有
    备案/许可证编号:苏ICP备17064731号-1 

    收起
    展开