CNS 14695-2002 Dual rate speech coder for multimedia communications transmitting at 5 3 and 6 3 kbps《以5 3及6 3KBPS传输之多媒体通信用双速率语音编码器》.pdf
《CNS 14695-2002 Dual rate speech coder for multimedia communications transmitting at 5 3 and 6 3 kbps《以5 3及6 3KBPS传输之多媒体通信用双速率语音编码器》.pdf》由会员分享,可在线阅读,更多相关《CNS 14695-2002 Dual rate speech coder for multimedia communications transmitting at 5 3 and 6 3 kbps《以5 3及6 3KBPS传输之多媒体通信用双速率语音编码器》.pdf(61页珍藏版)》请在麦多课文档分享上搜索。
1、1 以5.3及6.3 kbps傳輸之多媒體通信用雙速率語音編碼器 印月 94 10 月 本標準非經本局同意得翻印 中華民國國家標準 CNS 總號 號 ICS 35.110 14695 X1237 經濟部標準檢驗局印 公布日期 修訂公布日期 91 12 月 5 日 月日(共 61 頁) Recommendatio Dual rate speech coder for multimedia communications transmitting at 5.3 and 6.3 kbps 1. 簡介 1.1 適用範圍:本標準規定極低位元速之多媒體服務中,用以壓縮語音或其它音訊信號成分的碼化表示。本編碼
2、器之設計,所考慮的主要應用係 H.324 系標準中極低位元速之可視電話部分。 1.2 位元速:本編碼器有二種位元速: 5.3 和 6.3 kbps。較高的位元速有較佳品質。較低的位元速品質好且提供系統設計者額外的彈性。速皆為編碼器和解碼器所必備的。速可在任一 30ms 訊框邊界處換,亦可在非語音期間使用續傳輸和雜訊填充以達成可變速操作之選項。 1.3 可能的輸入信號:本編碼器係使用有限之複雜,在上述之速下,最佳化具備高品質之語音表示。音和其它的音訊信號並未如語音一般忠實地表示,但可以使用此編碼器壓縮和解壓縮。 1.4 延遲:本編碼器將語音或其它的音訊信號以 30ms 的訊框編碼。此外,尚有一7
3、.5ms 之預視,使得全部的演算法延遲為 37.5ms。本編碼器之實作及運算的全部額外延遲係由於: (1) 在編碼器和解碼器中實際花在處資的時間; (2) 在通信鏈上之傳輸時間; (3) 多工協定的額外緩衝延遲。 1.5 語音編碼器描述:本標準之語音編碼演算法的描述係採用精確位元 (bit-exact)及定點 (fixed-point)的學運算。第 5 節中的美國國家標準組織 (American Na-tional Standard Institute,ANSI)之 C 語言程式碼,係構成本標準整體之一部分,反映出精確位元及定點描述之方法。第 2 和第 3 節所述之編碼器和解碼器的學描述,可以
4、個方式實作之,因而可能導致編解碼器之實作符合本標準。因此,一旦發現矛盾時,第 5 節之 C 語言程式碼的演算法描述應優先於第 2 和第 3 節中的學描述。國際電信盟 (International Telecommunication Union,ITU)提供一組可與 C 語言程式碼配合使用之非窮盡的測試序。 2. 編碼器原 2.1 概述 本編碼器係設計用以運作位信號,該位信號係得自先對比輸入電話頻寬波 (G.712),再 以 8000 Hz 取樣,最後轉換為 16 位元的線性脈碼調變 (Pulse Code Modulation,PCM)信號,以作為編碼器之輸入。解碼器之輸出應以似方2 CNS
5、14695 , X 1237 式轉換回類比形式。其它的輸入輸出特性,諸如 G.711 所規定之 64kbps PCM資料,應在編碼前轉換成 16 位元的線性 PCM,或在解碼後由 16 位元的線性 PCM轉換為適當的格式。從編碼器到解碼器之位元流定義於本標準。 編碼器係基於線性預測依合成分析 (analysis-by-synthesis)之編碼原理,並試圖將聽覺加權誤差信號最小化。編碼器係運作於長度各為 240 個樣本的區塊 (訊框 )上。這等在 8kHz 取樣頻率下 30ms 的樣本。每個區塊先以高通濾波器去除直流成分,然後分成四個子訊框,各含 60 個樣本。對每個子訊框,使用未處理的輸入信
6、號以計算出一 10 階的線性預測編碼 (Linear Prediction Coder,LPC)濾波器。最後的子訊框之 LPC 濾波器則以預測式分離向量量化器 (Predictive Split Vector Quantizor,PSVQ)量化之。未量化的 LPC 係數用以建構短程的 聽覺加權濾波器,它是用以過濾整個訊框和獲得聽覺加權的語音訊號。 對每二個子訊框 (120 個樣本 )而言,開迴路聲調週期 LOL,係以加權的語音訊號計算而得。此聲調估計係於 120 個樣本的區塊上履行。聲調週期的搜尋範圍則從 18 到 142 個樣本。 自此處起語音係基於每個子訊框 60 個樣本的基礎上處理。 使
7、用先前計算所得之估算的聲調週期,可建構一諧波雜訊整形濾波器。 LPC 合成濾波器、共振峰聽覺加權濾波器與諧波雜訊整形濾波器的組合,用以建立一脈衝響應。然後此脈衝響應可用於更進一步的計算。 使用聲調週期估計 LOL 和脈衝響應可計算出閉迴路聲調預測器。所使用者為一五階的聲調預測器。聲調週期被計算作為在開迴路聲調估計附近的一個小差值。然後再將聲調預測器之影響由初始目標向量中減去。聲調週期和差值兩者皆被傳送至解碼器。 最後,概算出激發之非週期成分。對高位元速率,使用多重脈波最大概度量化(Multi-pulse Maximum Likelihood Quantization,MP-MLQ)激發;對低位
8、元速率,則使用代數碼激發 (Algebraic-code-excitation,ACELP)。編碼器的方塊圖如圖 1所示。 2.2 分框器 檔案: LBCCODEC.C 程序: main() 讀入 240 個樣本的輸入訊框 檔案: CODER.C 程序: Coder() 履行子訊框分割 編碼器係藉由將連續的語音樣本 yn緩衝入 240 個樣本的訊框 sn來處理語音。每個訊框分割為二個 120 個樣本的部分供聲調估計計算之用。每一部分再細分為二,因此每個訊框最後分成四個子訊框,每個子訊框 60 個樣本。 2.3 高通濾波器 檔案: UTIL_LBC.C 程序: Rem_Dc() 履行高通濾波器
9、本區塊去除輸入語音 sn中的直流成分。濾波器轉換函數為: 3 CNS 14695 , X 1237 ()1112812711=zzzH (1) 濾波器的輸出為: xnn = 0239圖 1 語音編碼器方塊圖 每一方塊內的數字為其對應之參考節次 FIGURE 2.4 LPC 分析 檔案: LPC.C 程序: C檔案: LPC.C 程序: DLPC 分析係在訊號 xn上以下述方法履行。使用十階線性預測的每個子訊框,有一 180 個樣本的訊窗以其為中心。施用於這些樣本的訊窗為一漢明窗。經訊窗處理所得的自相關數 (1025/1024)係由公式 R0=乘上二項式訊窗係數表。 (該表格之值和所有其它表格的
10、值皆於之 ) 。線性預測係數 (LiLevinson-Durbin 遞迴計算而得。對每個輸入訊框而言,計算而得的LSP 量化器 2.5 LSP 解碼器 2.6 LSP 內插器 2.7 分框器2.2 脈衝響應計算器 2.12 記憶 更新 2.19 零輸入響應zn 2.13 聲調預測器pn 2.14 聲調 解碼器 2.18 激發 解碼器 2.17 諧波雜訊整形wn 2.11 共振峰聽覺加權 2.8 LPC 分析 2.4 高通 濾波器 2.3 聲調 估計器 2.9 MP-MLQ/ACELP 2.15,2.16 模擬的解碼器 en un vn rn tn fn Az xn sn WzPz Sz zAL
11、i,Biyn omp_Lpc() 履行 LPC 係數計算 urbin() Levinson-Durbin 遞迴 (LP)分析。對(autocorrelation)係數有 11 個。白雜訊校正因R0(1+1/1024)求得。其它的 10 個自相關係數則C 程式碼中給定near Predictive Coefficient,LPC) 是用傳統的LPC 集有四4 CNS 14695 , X 1237 個,每個子訊框一個。這些 LPC 集用以建構短程聽覺加權濾波器。 LPC 合成濾波器定義為: () 30,11101=izazAjjiji(2) 此處 i 是子訊框索引,定義為在 0 和 3 之間。 2
12、.5 LSP 量化器 檔案: LSP.C 程序: AtoLsp() 轉變 LPC 成為 LSP 係數 檔案: LSP.C 程序: LspQnt() LSP 向量量化 檔案: LSP.C 程序: Lsp_Svq() LSP 子向量量化 首先,履行一小的附加的頻寬擴展 (7.5Hz)。之後,所得之 A3(z) LP 濾波器以預測式分離向量量化器加以量化。該量化是以下列方法履行: (1) 藉沿著單位圓搜尋和零交越 (zero crossing)的內插,將 LP 係數 ajj = 110轉換為 LSP 係數 jp j = 110。 (2) 長程直流成分 pDC,由 LSP 係數 p中移除,而得到一新的
13、去除直流的 LSP 向量 p。 (3) 一個一階的固定預測器 b = (12/32),被應用於先前已解碼的 LSP 向量1np ,以在時間 (訊框 )n 獲得去除直流的預測之 LSP 向量np ,,和殘留的 LSP 錯誤向量 en。 .,10,2,1 nnnTnpppp = (3.1) nnnTnPPPP,10,2,1.= (3.2) DCnnPPbP =1(3.3) nnnPPe = (3.4) (4) 未量化的 LSP 向量nP ,已量化的 LSP 向量nP,殘餘的 LSP 錯誤向量 en分別地被分成維度為 3、 3 和 4 之三個子向量。每一第 m 個子向量皆是使用一 8 位元碼簿予以向
14、量量化。所選擇之適當子向量碼簿項的索引 l,係將錯誤準則 El,m最小化者。 mmmmTmKPPPP33231.+=,=2,41,30,3mmmKm(4.1) mlmmlmlTmlKPPPP,2,1,.=,256120lm(4.2) 5 CNS 14695 , X 1237 PDCPP += (4.3) m,lmDCmm,lePPP +=,256120lm(4.4) ()( )mlmmTmlmmlPPWPPE,=,256120lm(4.5) 此處 el,m是第 m 個分割殘餘的 LSP 碼簿之第 l 個項、且 Wn為一由未量化的 LSP 係數向量 p所決定之對角線加權矩陣,其加權定義如下: j
15、jjjjjPPPPw=+ 11,min192, j 121,11PPw= (5) 91010,101PPw= (5) 所選擇的索引將傳送到通道。 2.6 LSP 解碼器 檔案: LSP.C 程序: Lsp_Inq() LSP 之逆量化 LSP 係數之解碼是以下列方法履行: (1) 首先,三個子向量 em,nm = 02被解碼以形成一個十階的向量ne。 (2) 預測的向量nP ,,被加到解碼向量ne和直流向量 pDC,以形成解碼的 LSP 向量nP。 (3) 對解碼的 LSP 向量nP履行穩定度檢查,以保證解碼之 LSP 向量是依照以下條件有序排列。 min,1+ njnjPP 91, j (6
16、) min等於 31.25 Hz。若式 (6)對於iP和1+iP 的穩定性檢查失敗,則jP和1+jP 以下列方法變更: ( ) 2/1+=jjavgPPP (7.1) 2/min=avgjPP (7.2) 2/min1+=+ avgjPP (7.3) 此變更一直執行到條件 (6)被滿足。假如在 10 次疊代後,穩定性條件仍未被滿足,則使用先前的 LSP 向量。 6 CNS 14695 , X 1237 2.7 LSP 內插 檔案: LSP.C 程序: Lsp_Int() LSP 內插器 檔案: LSP.C 程序: LsptoA() 轉換 LSP 至 LPC 係數 對每個子訊框,在解碼的 LSP
17、 向量nP和先前的 LSP 向量1nP 間履行線性內插。四內插的 LSP 向量 iPi = 03被轉換至 LPC 向量 iai = 03。 +=nnnnnnnniPPPPPPPP75.025.05.05.025.075.01113,2,1,0,=iiii(8) TiiiTiaaaa1021.= 30, i (9) 量化的 LPC 合成濾波器 ()zAi用以產生解碼的語音訊號,其定義如下: ()=10111jijijzazA 30, i (10) 2.8 共振峰聽覺加權濾波器 檔案: LPC.C 程序: Wght_Lpc() 計算聽覺濾波器係數 檔案: LPC.C 程序: Error_Wght(
18、) 應用聽覺加權濾波器 每個子訊框皆使用未量化的 LPC 係數 aijj = 1,10以建構一共振峰聽覺加權濾波器。此濾波器之轉換函數為: ()jjjzajzazWjijjiji2110110111=30, i (11) 此處 1= 0.9 , 2= 0.5。輸入的語音訊框 xnn = 0239即被分成四個子訊框,每個子訊框皆以 Wi(z)濾波器濾波,從而得到加權的輸出語音訊號 f nn = 0239。 2.9 聲調估計 檔案: EXC_LBC.C 程序: Estim_Pitch() 開迴路聲調估計 7 CNS 14695 , X 1237 每一個訊框需要計算二個聲調估計,一個供前兩個子訊框之
19、用,一個供後兩個子訊框之用。開迴路聲調週期估計 LOL係用聽覺加權語音 f n來計算的。使用一互相關 (crosscorrelation)準則 COL( j)最大化方法以決定聲調週期, 如下所示: () jnfjnfjnfnfjCnnOL=11902119014218, j (12) 使互相關 COL( j)最大化之索引 j,被選擇作為二適當子訊框之開迴路聲調估計。在搜尋最佳索引時,較小的聲調週期較為優選時期,以避免選擇到聲調的倍數。搜尋自 j=18 開始之 COL( j)之最大值。當找到每一個最大的 COL( j),它的值被拿來與先前所找到之最佳的最大值 COL( j)比較。假如在索引 j
- 1.请仔细阅读文档,确保文档完整性,对于不预览、不比对内容而直接下载带来的问题本站不予受理。
- 2.下载的文档,不会出现我们的网址水印。
- 3、该文档所得收入(下载+内容+预览)归上传者、原创作者;如果您是本文档原作者,请点此认领!既往收益都归您。
下载文档到电脑,查找使用更方便
10000 积分 0人已下载
下载 | 加入VIP,交流精品资源 |
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- CNS146952002DUALRATESPEECHCODERFORMULTIMEDIACOMMUNICATIONSTRANSMITTINGAT53AND63KBPS 53 63 KBPS 传输 之多

链接地址:http://www.mydoc123.com/p-634456.html