CNS 14649-1-2002 Information Technology-Universal Multiple-Octet Coded Character Set (UCS)-Part1 Architecture and Basic Multilingual Plane《信息技术─广用多八位编码字符集﹝UCS﹞─第1部:架构及基本多语文字面》.pdf
《CNS 14649-1-2002 Information Technology-Universal Multiple-Octet Coded Character Set (UCS)-Part1 Architecture and Basic Multilingual Plane《信息技术─广用多八位编码字符集﹝UCS﹞─第1部:架构及基本多语文字面》.pdf》由会员分享,可在线阅读,更多相关《CNS 14649-1-2002 Information Technology-Universal Multiple-Octet Coded Character Set (UCS)-Part1 Architecture and Basic Multilingual Plane《信息技术─广用多八位编码字符集﹝UCS﹞─第1部:架构及基本多语文字面》.pdf(1103页珍藏版)》请在麦多课文档分享上搜索。
1、 1 資訊技術廣用多八位元編碼字元集 ( UCS)第1部:架構及基本多語文字面 印月 94 10 月 本標準非經本局同意得翻印 中華民國國家標準 CNS 總號 號 ICS 35.040 14649-1 X5066-1經濟部標準檢驗局印 公布日期 修訂公布日期 91 6 月 6 日 月 日 (共 1103 頁)Information technology Universal multiple Octet coded character set (UCS) Part 1 : Architecture and basic multilingual plane 1. 適用範圍 本標準規定廣用多八位元編
2、碼字元集( UCS)。適用於全球各種語文的書寫形式和附加符號的表示、傳輸、交換、處、儲存、輸入和表達。 2. 用語釋義 本標準引用下定義: (1) 基本多語文字面 (Basic Multilingual Plane,簡稱 BMP): 00 群組的 00 字面。 (2) 區塊 (block):一組有共通特性的相字元的匯集,比如文字。 (3) 正準形式 (canonical form):本編碼字元集的字元,依規定使用四個八位元表示的形式。 (4) 編碼字元資元件 (coded-character-data-element,簡稱 CC-Data-Element):交換資訊的元件,規定為依據一或多個別
3、的編碼字元集標準,由字元的編碼表示順序組成。 (5) 格 (cell):中的某位置,可配置一個字元。 (6) 字元 (character):為基本位元組合,用於資的組織、控制或表示。 (7) 字元邊界 (character boundary) :在八位元中,編碼表示的一字元中最後的八位元,和下字元的前面八位元之間的分界。 (8) 編碼字元 (coded character):字元及其編碼表示。 (9) 編碼字元集 (coded character set) :一組明確的規則,用以建字元集,以及當中字元及其編碼表示間的關係。 (10) 編碼表 (code table):出每一多八位元組合所配置之
4、字元表。 (11) 匯集 (collection):一組已編號並命名的編碼字元,其由一個以上可別範圍內的所有編碼字元所組成。 備考:此可別範圍內含有尚未配置字元的碼位,當本標準未修正時,任一新指定加入此匯集的額外字元,均將使匯集的字庫改變。唯在本標準未的版本中,匯集號碼及其名稱仍將保持變。 (12) 組合字元 (combining character) :為本標準編碼字元集的別子集,用於與前導非組合圖形字元組合,或與由非組合字元前導的組合字元序組合(照第2.(14)節)。 備考:本標準規定某些包括組合字元在內的某些子集匯集。 (13) 相容字元 (compatibility character
5、):所納入圖形字元包含在本標準的編碼字元內,係為與現存的編碼字元集(如 CNS 11643)相容。 2 CNS 14649-1, X 5066-1 (14) 合成序列 (composite sequence):由非組合字元其後跟隨一或多個組合字元所組成的圖形字元序列 ( 參照第 2. (12) 節 )。 備考 1:合成序列的圖形符號,一般是由序列中每個字元所組成的圖形符號構成。 2:合成序列不是字元,因此不是本標準字庫中的成員。 (15) 控制功能 (control function):能影響資料記錄、處理、傳輸,及解釋的作用,且具有由一或多個八位元所組成的編碼表示。 (16) 預設狀態 (d
6、efault state) :當狀態未明確指定時的假設狀態。 (17) 詳細編碼表 (detailed code table) :顯示個別字元的編碼表,通常也顯示部分的列。 (18) 裝置 (device):資訊處理設備的組件,可傳送及( 或 )接收編碼字元資料元件中的編碼資訊。(可為習知的輸出 /入裝置,或如同應用程式或閘道功能的處理。) (19) 固定匯集 (fixed collection) :於可識別範圍內的每一碼位均已配置字元的匯集,在本標準未來版本中將保持不變。 (20) 圖形字元 (graphic character):控制功能以外的字元,通常代表目視可辨的手寫、列印或顯示字元。
7、 (21) 圖形符號 (graphic symbol) :圖形字元或合成序列的視覺表示。 (22) 群組 (group) :本編碼字元集的編碼子區間,有 256 256 256 格。 (23) 上半區 (high-half zone):保留用於 UTF-16(參照附錄 3)的格集合;對應其中任何一格的列格元件可當作列格元件對的第一個,表示此字元是出自 BMP 以外的字面。 (24) 交換 (interchange):使用通信方法或交換媒介,把字元編碼資料從一個使用者轉移到另一個使用者。 (25) 交互工作 (interworking) :允許兩個或多個使用不同編碼字元集的系統,對交換字元編碼資
8、料進行具有意義的處理,其中可以包括兩種碼的轉換。 (26) 下半區 (low-half zone):保留用於 UTF-16(參照附錄 3)的格集合;對應其中任何一格的列格元件可當作列格元件的第二個,表示此字元是出自 BMP 以外的字面。 (27) 八位元 (octet) :可視為單元的、有序的八個位元的序列。 (28) 字面 (plane) :群組中的子區間,有 256 256 格。 (29) 表現 (presentation) :書寫、印出或顯示圖形符號的處理。 (30) 表現形式 (presentation form):在某些文字表現中,依據字元與其他字元相對位置,代表字元的圖形符號形式。
9、 (31) 專用字面 (private use planes):在編碼字元集中,其內容不由本標準規定的字面(參照第 10.1 節)。 (32) 列格元件 (RC-element) :取自四個八位元序列(正準形式),由列 (R)八位元及格(C) 八位元組成的雙八位元序列(參照第 6.2 節),可對應到編碼字元集編碼空間的一格。 (33) 字庫 (repertoire):規定的字元集,表現為編碼字元集。 (34) 列 (row):字面的子區間,共 256 格。 (35) 文字 (script) :使用於一或多個語言書寫形式的圖形字元集。 3 CNS 14649-1, X 5066-1(36) 輔助
10、字面 (supplementary plane):用以收容未被配置到 BMP 的字元的字面。 (37) 不配對列格元件 (unpaired RC-element):編碼字元資料元件中,列格元件具以下兩種情況之一: (a) 一個出自上半區的列格元件之後不是緊接一個出自下半區的列格元件。 (b) 一個出自下半區的列格元件之前不是緊接一個出自上半區的列格元件。 (38) 使用者 (user):使用由裝置提供服務的個人或其他實體。(例如,若“裝置”是轉碼或閘道功能,則這個實體可以是應用程式。) (39) 區 (zone):編碼表中格的序列,由一或多個整列或部分的列所組成,包含特定類別的字元(參照第 8
11、 節)。 3. 概述 本標準規定 UCS 全體的架構,並且: (1) 定義本標準使用的術語。 (2) 敘述編碼字元集的一般結構。 (3) 規定 UCS 的 BMP,應定義全世界所用文字和語言書寫形式之圖形字元集。 (4) 規定 BMP 的圖形字元名稱,和編碼表示。 (5) 規定 UCS 的四個八位元 (32 位元) 的正準形式:UCS-4 。 (6) 規定 UCS 的雙八位元 (16 位元) 的 BMP 形式:UCS-2 。 (7) 規定控制編碼字元集的編碼表示。 (8) 規定本編碼字元集未來擴增的管理。 UCS 不同於 CNS 7654 所規定的編碼系統。第 16.2 節規定從 CNS 76
12、54 指定到 UCS 的方法。 備考 1: Unicode 標準 3.0 版所提供的字元集,其字元名稱和編碼表示與本標準完全相同。另外該標準並提供了有助於實作的詳細字元性質、處理演算法及定義等資訊。 備考 2:若相關國家標準組織或其他合格專家提供了足夠的資訊及評論,額外的文字與符號亦將予以編碼納入本標準。 4. 符合性 4.1 一般性:無論何時,若依照本標準的規定使用專用字元,則這些字元無須涵蓋下列各項符合性的需求。 4.2 資訊交換的符合性:在交換用的編碼資訊中,如果稱某編碼字元資料元件 (簡稱 CC-Data-Element) 符合本標準,則必須: (1)所有圖形字元的編碼表示均符合第 6
13、 及 7 節,並符合選自第 13 節、附錄 3或附錄 4 的識別形式,以及符合選自第 14 節的識別實作層次。 (2)所有圖形字元都取自可識別的子集中(參照第 12 節)。 (3)所有的控制功能編碼表示都符合第 14 節的規定。 符合性的宣告,應標識出所採用的形式,和所採用的實作層次,以及所採用以匯集及( 或 )字元表列方法的子集。 4 CNS 14649-1, X 5066-1 4.3 裝置的符合性:如果裝置符合下列選項(1) 的需求,以及(2) 、 (3)兩者或兩者之一,則可視為符合本標準。 備考:在第 2. (18) 節中“裝置”定義為資訊處理設備的組件,它能傳送及( 或 )接收編碼字元
14、資料元件中的編碼資訊。這個裝置可以是傳統的輸出 /入裝置,或應用程式或閘道功能。 符合性的宣告,應該識示出文件,其中包含下列(1)中規定,且說明所採用的形式、實作層次,以及子集(匯集及( 或 )字元的表列),同時依據第 15 節所採用控制功能的選擇。 (1) 裝置說明:符合本標準的裝置,應說明由使用者提供字元到裝置上和 (或 )提供使用者這些字元辨識它們的方法,如同下列(2) 和 (3)選項中的規定。 (2) 起源裝置:起源裝置允許使用者從所採用的子集中提供任何字元,並可依據所採用的形式及實作層次,在編碼字元資料元件中做為傳送字元的編碼表示。 (3) 接收裝置:接收裝置可依據所採用的形式及實作
15、的層次,做為在編碼字元資料元件中,接收及解譯每個字元的編碼表示,同時在所採用的子集中,任何相對應的字元,使用者都可依此方法辨識它們。 任何不在所採用的子集中的相關字元,應以某種方法告知使用者,不需他們去自行區別這些字元。 備考 1.告知使用者的方法可以是用相同字元表示所有不在被採用子集中的字元;或是在適合某類使用者時,提供可聽或可視的識別信號。 2.接收裝置的再傳輸能力,參照附錄 9。 5. UCS 的一般結構 本節敘述廣用多八位元編碼字元集(以下稱“本編碼字元集”)的一般結構,並附圖 1 及圖 2 加以說明。此結構的規格將於稍後的章節中說明。 在本標準中,任何八位元的值,均以從 00 到 F
16、F 的十六進位法來表示(參照附錄10)。 本編碼字元集的正準形式,即其構思的方法是使用被視為單一實體的四維編碼空間,此空間由 128 個三維的群組所組成。 備考:因此,在編碼字元的正準形式中,其最高有效八位元的第八個位元,在裝置中可因為內部處理的目的而使用,只要它在符合的編碼字元資料元件內被設定為零。 每個群組由 256 個二維的字面組成。每個字面由 256 個一維的列組成,每個列包含256 個格。在編碼空間中的每個格內,均有一個字元被定位及編碼;否則此格即被宣告為未使用。 在正準形式中,四個八位元用以表示每個字元,並分別規定群組、字面、列及格。由於雙八位元不足以涵蓋全球所有的字元,而且三十二
17、位元的表示法符合目前處理器的架構,所以正準形式是由四個八位元所組成。 四個八位元的正準形式,可當做四個八位元的編碼字元集來使用,這種情形稱為UCS-4。 5 CNS 14649-1, X 5066-1第一字面(00 群組的 00 字面)稱為基本多語文字面( BMP)。 BMP 包含一般使用的字母、音節符號、表意文字等字元,以及各樣的符號及數字。 第一字面以後的字面視為輔助或專用字面,可容納新增的圖形字元(參照第 9 節)。 保留專用的字面規定於第 10 節。本標準中未規定專用區中每格的內容。 在編碼字元集中,每個字元是依群組八位元、字面八位元、列八位元與格八位元來定位。 正準形式之外,另規定有
18、雙八位元 BMP 的形式。因此, BMP 可當做雙八位元編碼字元集來使用,識別為 UCS- 2。 為了給予圖形字元的次字庫,可使用編碼空間中的子集。 UCS 轉換格式(UTF-16)規定於附錄 3,可用雙八位元相容格式,表示 00 群組中BMP 以外的 16 個字面的字元。 UCS 轉換格式(UTF-8 )規定於附錄 4,可用於傳輸文本資料,以通過對 CNS 7654八位元結構及 CNS 7656 控制字元敏感的通訊系統。UTF-8 也避免使用依據 CNS 7656 規定,在廣泛使用的檔案處理系統中,剖析檔案名稱時有特殊意義的八位元字串。 6. 基本結構及命名 6.1 結構:本標準規定的廣用多
19、八位元編碼集應視為單一實體。 全部的編碼字元集,可視為包括 256 個字面的 128 個群組。每個字面包含 256列的字元,每個列包含 256 個格。在表示字面內容的編碼表中(如圖 2),水平軸表示最低的八位元,它的較小值靠左;而垂直軸表示較高的八位元,它的較小值在頂部。 編碼空間的每個軸應按八位元編碼。在每個八位元之中 ,最高的位元是位元 8,最低的位元是位元 1 。 每個位元的權重為: 80 位元 7 位元 6 位元 5 位元 4 位元 3 位元 2 位元 1128 64 32 16 8 4 2 1 6.2 字元編碼:在編碼字元集的正準形式中,全部編碼字元集中的每個字元,表示為四個八位元的
20、序列。此序列的最高八位元是群組八位元,其最低八位元是格八位元,因此可表示為: m.s. l.s. 群組八位元 字面八位元 列八位元 格八位元 m.s.表示最高(most significant) 八位元,l.s. 表示最低(least significant) 八位元。 為求簡潔,各個八位元也可用下列縮寫形式: m.s. l.s. G 八位元 P 八位元 R 八位元 C 八位元 在適當處,並可更簡化成 G、 P、 R 及 C。 八位元的值,應用兩個十六進位數字來表示,例如:31 或 FE。當單一字元被識別為群組值、字面值、列值和格值表示時,其方式如下: 6 CNS 14649-1, X 506
21、6-1 0000 0030 為數字 0 (DIGIT ZERO) 0000 0041 為拉丁大寫字母 A (ALATIN CAPITAL LETTER A) 當參照一個已識別字面的字元時,可省略 G 八位元及 P 八位元的前導四個零。例如,在 00 字面中引用數字 0 時,可以用 0030 代表數字 0。 圖 1 廣用多八位元編碼字元集全部的編碼空間 字面00 群組之 00字面群組之FF00字面 00群組之7F字面00群組之01群組7F群組 0100 群組 256 256 格每個字面: 7 CNS 14649-1, X 5066-1圖 2 廣用多八位元編碼字元集的 00 群組 D8F8 80
22、專用區F9FF 00010F E0FF字面八位元組基本多語文字面輔助字面專用字面0F, 10, E0 - F列八位元組格八位元組FF8000 S區D8DF 80 S 區及專用區規定於第 8 節中。6.3 八位元次序:一個字元的八位元表示順序,其最高及最低端點,應與圖 2 所示相符合。當串列為八位元時,較高的八位元應在較低的八位元前面。當串列不是八位元時,八位元的次序,可以依傳送者與接受者之間的約定來做規定(參照第 16.1 節及附錄 8)。 6.4 字元命名: 本標準的每一字元皆指定唯一的名稱。字元名稱可為下列之一: (1) 表示該字元最常見的意義;或 (2) 描述相當於該符號的形狀;或 (3
23、) 中日韓認同的表意文字(參照第 27 節)。 附錄 11 為上列(1)及 (2)項字元名稱的指引。 6.5 字元的短識別符:本標準的每一字元皆定義一個短識別符。任何字元的短識別符皆與其它字元的短識別符不同。這些短識別符與撰寫標準使用的語言無關, 不論本標準再翻譯成任何語言,這些短識別符都維持不變。 短識別符的替代記法形式定義如下: 8 CNS 14649-1, X 5066-1 (1) 八位數形式的短識別符必須是八個十六進位數字的序列,表示字元編碼位置(參照第 6.2 節)。 (2) 四位數字形式的短識別符必須是八位數字形式的後四位數字。若八位數字形式的前四位數字不是全部為 0,即 BMP
24、以外的字元,不定義四位數字的短識別符。 (3) 八位數字短識別符的前面可任意加上連接符或減號“”。 (4) 四位數字短識別符的前面可任意加上加號“”。 (5) 以上 (1)至 (4)項四種短識別符定義中的任何一種,皆可以用拉丁字母大寫 U為前置字元。 短識別符中出現的大寫字母 A 至 F,以及 U 可以用對應的小寫字母替換。 以 BNF 形式表示短識別符記法的完整語法如下: U|u +xxxx|-xxxxxxxx 其中“x ”表示一個十六進位數字(0 到 9, A 到 F, 或 a 到 f), 如: -hhhhhhhh +kkkk UhhhhhhhhU+kkkk 其中 hhhhhhhh 表示八
- 1.请仔细阅读文档,确保文档完整性,对于不预览、不比对内容而直接下载带来的问题本站不予受理。
- 2.下载的文档,不会出现我们的网址水印。
- 3、该文档所得收入(下载+内容+预览)归上传者、原创作者;如果您是本文档原作者,请点此认领!既往收益都归您。
下载文档到电脑,查找使用更方便
10000 积分 0人已下载
下载 | 加入VIP,交流精品资源 |
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- CNS1464912002INFORMATIONTECHNOLOGYUNIVERSALMULTIPLEOCTETCODEDCHARACTERSETUCSPART1ARCHITECTUREANDBASICMULTILINGUALPLANE

链接地址:http://www.mydoc123.com/p-634396.html