CNS 14754-2003 Sorting attributes for Chinese data processing《中文信息排序属性标准》.pdf
《CNS 14754-2003 Sorting attributes for Chinese data processing《中文信息排序属性标准》.pdf》由会员分享,可在线阅读,更多相关《CNS 14754-2003 Sorting attributes for Chinese data processing《中文信息排序属性标准》.pdf(679页珍藏版)》请在麦多课文档分享上搜索。
1、1 中文資訊排序屬性標準 印月 94 10 月 本標準非經本局同意得翻印 中華民 國國 家標 準 CNS 總號 號 ICS 35.040 14754 X5067 經濟部標準檢驗局印 公布日期 修訂公布日期 92 6 月 24 日 月日 (共 679頁) Sorting attributes for Chinese data processing 1.適用範圍 本標準規定資訊處用中文資訊排序之屬性及其制訂原則,適用於 CNS 11643中 文標準交換碼全部或部分字集相關資訊之排序處用。 2.用語釋義 (1) 排序:按特定規則將中文字及符號字元依遞升或遞減順序排。 (2) 排序屬性:用將資按某種規
2、則排順序所使用的屬性。 (3) 符號區:指 CNS 11643第一字面 1-2121 至 1-437E的碼位區間,共編碼 684 個 符號。 (4) 部首:中文字的分法之一。本標準所稱之部首,依教育部部首手冊規定。 (5) 筆畫:中文字書寫每筆形體的名稱。如:點、橫、豎、撇、折、捺等。本標準 所稱之筆畫,依教育部國字筆畫名稱表。 (6) 總筆畫:每個中文字書寫時所需的筆畫,含部首與部首外筆畫。本標準之 總筆畫,除依據 CNS 11643原訂者外,並考教育部所頒布之正字表及體字 表。 (7) 部首外筆畫:每個中文字書寫時,部首以外所需的筆畫。本標準之部首外 筆畫,依據教育部所頒布之正字表及體字表
3、。 (8) 筆畫別:用筆順排序時的代表屬性。本標準依據教育部國字筆畫名稱併 表,將中文字筆畫歸納為 (點)、 (橫)、 (豎)、 (撇)四。 (9) 筆順:中文字書寫時的筆畫先後順序。本標準之筆順依據教育部常用中文字 標準字體筆順手冊之規定。 (10)氏音碼:由達人先生所創,以四位字將中文字的發音作系統化的表示。 其編碼依第一聲、第二聲、第三聲、第四聲、輕聲的順序,同音五聲調為一組, 如:0001()、0002()、0003()、0004()、 0005(),其值之範圍由 0001 至 2055。 (11)氏音碼尾值:由氏音碼衍生,其值為 0 或 1。凡於氏音碼的字音, 其氏音碼尾值為 1,否
4、則為 0 。 (12)符號值屬性:為輔助一般常用符號排序而賦予的屬性。 (13)值屬性:為輔助字符號或中文字排序而賦予的屬性。 3.制訂原則 本標準係以我國 CNS 11643符號區 684個符號及中文字區 48,027字為基礎,逐字2 CNS 14754, X 5067 訂定排序所需的屬性,包括總筆畫數、部首、部首外筆畫數、注音、 劉氏音碼、筆順、符號值及數值屬性。 3.1 基本原則 (1) 本標準遵守並沿用教育部頒布之國字參考資料。 (2) 本標準沿用 CNS 11643中訂定之總筆畫數、部首、部首外筆畫 數。 (3) 符號與中文字的排序屬性分開訂定,並分別列表。 (4) 依符號性質,分別
5、考慮其排序所需的屬性。並考慮符號與中文字參雜排序之 情形。 3.2 符號值屬性 採用與 CNS符號相對應的 ASCII符號為其符號值。下列 CNS 11643符號賦予符 號值屬性: (1) 標點符號:中文標點符號依其形狀或用法,取其近似之 ASCII 符號作為其 符號值。 (2) 外文字母:大、小寫英文字母符號,以其相對應之 ASCII 大寫符號為其符 號值;ASCII 沒有的其他外文字母(大、小寫希臘文字母符號)以其 CNS 大寫符號為其符號值。例如: ASCII 符號 CNS 符號 符號值屬性 備 註 A A ASCII符號為半形 a A ASCII符號為半形 A CNS符號為全形 A C
6、NS符號為全形 CNS符號為全形 CNS符號為全形 備考:考慮實際應用時可能存在ASCII半形符號與CNS全形符號參雜排序的 情況,故對ASCII符號亦賦予符號值。 3.3 數值屬性 以阿拉伯數字表示數字符號本身代表的數值大小。例如、三、參、 的數值屬性均為“3”。 下列 CNS 11643符號賦予數值屬性: (1) 全形阿拉伯數字符號:、。 (2) 中國數字符號:、十、卄、卅。 (3) 中文數字及數量用字:一、二、三、四、五、六、七、八、九、十、百、 千、零、壹、貳、參、肆、伍、陸、柒、捌、玖、拾、佰、仟、萬、億、 兆及微、毫、奈、分、釐。 備考:為考慮實際應用時,存在有ASCII數字符號、
7、CNS全形數字符號、CNS中 文數字等參雜排序的情形,故本標準對此幾類符號均賦予符號值,以供 應用參考。 3.4 注音屬性 CNS 11643 第一字面至第七字面的文字均賦予注音屬性。以國語注音符號第一 式表示。以呈列一音為原則,凡遇多音字,則參考教育部一字多音審訂表 3 CNS 14754, X 5067 取其第一音作為該字之常用音。多音字其餘之音,則詳列於附錄多音字列表。 例如:上的常用音為“”,另音為“”列入附錄。 除文字外,下列 CNS 11643 之符號亦賦予注音屬性: (1) 部首符號:共 213個。 (2) 注音符號:、等共 37個。 備考:聲調符號(一至四聲、輕聲)因不單獨排序
8、,故無注音屬性。 3.5 部首屬性 每一字之部首屬性以部首形、部首代碼、部首筆畫數三種形式表 現。 (1) 部首形:依據教育部部首手冊之標準部首形。 (2) 部首代碼:將二一四部首以 1 至 214 的數字表示。參見附錄部首代碼 表。 (3) 部首筆畫數:依據教育部部首手冊所訂之部首筆畫,其值由 1 至 17。 例如: 中文字 部首形 部首代碼 部首筆畫數 莎 艸 140 6 胡 肉 130 6 備考:一字之部首,若為變形者,則依書寫實際筆畫數。如艸部,單獨時算六畫,但 於莎字中,只算四畫。 除文字外,下列 CNS 11643符號亦給予部首屬性: (1) 部首符號:213個。 (2) 單位詞符
9、號:兙、兛、兞、兝、兡、兣、嗧、瓩、糎9 個。 3.6 筆畫數屬性 採 CNS 11643原訂之總筆畫數,並參考教育部所頒布之正字表及異體字表。 3.7 部首外筆畫數屬性 部首以外實際的筆畫數。依據教育部所頒布之正字表及異體字表。 例如: 中文字 部首筆畫數 部首外筆畫數 總筆畫數 北 2 (匕) 3 5 莎 6 (艸) 7 11 胡 6 (肉) 5 9 3.8 筆順屬性 將每一中文字之標準楷體依標準書寫順序拆解成個別筆畫,並以 (點)、 (橫)、 (豎)、 (撇)四種筆畫類別表示。筆順屬性之 制訂原則如下: (1) 取筆順序按照教育部常用中文字標準字體筆順手冊之規定,取全字之 筆畫。 (2)
10、 參照教育部異體字字典編輯資料(一 )之部首偏旁變形歸納表及非 部首偏旁變形歸納表,先將每字按部首、獨立字、組合字觀念進行拆解, 並儘量以構字部件表現。 4 CNS 14754, X 5067 (3) 將每一構字部件以筆畫類別表示。 (4) 將每字中所有的構字部件代換成筆畫類別,即為其筆順屬性。 備考: 本標準中筆順屬性表現形式,點、橫、豎、撇在書面文件中以 ASCII 符號 . - | / 表示,在電子檔中則以筆畫類別代碼(1、 2、 3、 4) 表示。例如: 筆順屬性 中文字 筆畫書寫順序 筆畫類別 書面文件 (ASCII符號) 電子檔 (筆畫類別代碼) 北 一一一 | - - - | 3
11、2223 3.9 劉氏音碼屬性 CNS 11643 之所有中文字之注音屬性均轉換為劉氏音碼,注音與劉氏音碼之對 照請參見附錄。 除中文字外,本標準對於劉氏音碼中未列之 CNS 11643所編注音符號,亦賦予 劉氏音碼屬性,供注音符號與中文字參雜應用時可按音碼排序,故於劉氏音碼 之後加附一尾碼,以示區別。注音符號之劉氏音碼尾值屬性制定原則如下: (1) 凡不成音節的注音符號(如、 、聲符) ,以其劉氏音碼中第一次出現的位置為其劉氏音碼值, 並規定其尾值為 0 。 (2) 劉氏音碼已有的成音節注音符號,其尾值均為 1,以便於排序。 例如: 注音符號/字 注音屬性 劉氏音碼屬性 劉氏音碼尾值 備 註
12、 0001 0 劉氏音碼無此符號,故 依“”之劉氏音 碼值,但尾值為0。 0001 1 1256 1 北 0018 1 備考:因中文字讀音之劉氏音碼尾值均為1,故本標準之屬性列表不列印 尾 值欄。注音符號之劉氏音碼尾值為零者,加註星號以標明。 4.屬性表書面格式 4.1 列表:本標準中之排序屬性表,依 CNS 11643的順序,分以下八部分列表: 1. CNS 11643 符號區,包括以下三部分: (1) 具符號值屬性之符號列表(含 ASCII符號) (2) 具數值屬性之符號列表(含部分中文數字) (3) 具注音、部首、總筆畫數屬性之符號列表 2. CNS 11643 第一字面排序屬性表 3.
13、 CNS 11643 第二字面排序屬性表 4. CNS 11643 第三字面排序屬性表 5. CNS 11643 第四字面排序屬性表 5 CNS 14754, X 5067 6. CNS 11643 第五字面排序屬性表 7. CNS 11643 第六字面排序屬性表 8. CNS 11643 第七字面排序屬性表 4.2 使用之字形:屬性表中的 CNS 11643 字形係以經濟部所提供之 40*40 宋體字 型列印。 4.3 注音欄:只列印常用音一欄;兩音以上的字加註星號,列入附錄多音字列 表。 4.4 筆順欄:最多列印總筆順之前 28筆。筆畫數超過 28筆者,其完整之筆順屬性 參見電子檔。 備考
14、1:電子檔中筆順欄之內容參照附錄屬性電子檔格式說明。 備考2:劉氏音碼為數值,並不具閱讀上的意義,故本標準除CNS 11643 符號區部分 有列印劉氏音碼外,其餘中文字部分均不列印劉氏音碼及其尾值,惟電子檔中 仍包含此項資料。 6 CNS 14754, X 5067 表一、CNS 11643 符號區排序屬性總表 所賦予之排序屬性 CNS 11643 交換碼範圍 符號及 文字區塊 名稱 總 筆 畫 數 部 首 部 首 外 筆 畫 數 注 音 符 號 劉 氏 音 碼 劉 氏 音 碼 尾 值 符 號 值 數 值 備 註 1-2121 間隔符號 - - - - - - - - 1-21221-213D
15、 標點符號 - - - - - - - 書名號、私名號 1-213E1-216B 括號 -1-216C1-222F 一般符號 -1-22301-2262 學術符號 -1-22631-2323 單位符號 -1-23241-234E 製表符號 - 1-24211-242A 阿拉伯數字符 - - - - - - 1-242B1-2434 羅馬數字符號 - - - - - - - 1-24351-2440 中國數字符號 - - - - - - - 1-24411-245A 大寫英文字母 - - - - - - - 1-245B1-2474 小寫英文字母 - - - - - - - 1-24751-25
16、2E 大寫希臘文字 - - - - - - - 1-252F1-2546 小寫希臘文字 - - - - - - -1-25471-255B 聲母符號 - - 1-255C1-256B 韻母符號 - - 1-256C1-2570 聲調符號 - - - - - - - -1-26211-263E 特殊數字符號 -1-27211-2939 部首符號 - -1-42211-4241 中文傳輸控制 - - - - - - - -1-44211-7D4B 第一字面 2-21211-7244 第二字面 3-21211-6246 第三字面 4-21211-6E5C 第四字面 5-21211-7C51 第五字面
17、 6-21211-647A 第六字面 7-21211-6655 第七字面 -註:表示本標準有賦予該項屬性,-表示無該項排序屬性。 引用標準:CNS 11643 中文標準交換碼 7 CNS 14754, X 5067CNS 11643 符號區排序屬性表 1. 具符號值屬性之符號列表 ( 含 ASCII 符號) 2. 具數值屬性之符號列表 ( 含部份中文數字) 3. 具注音、部首、筆畫數屬性之符號列表8 CNS 14754, X 5067 9 CNS 14754, X 506710 CNS 14754, X 5067 11 CNS 14754, X 506712 CNS 14754, X 5067
18、 CNS 11643 第一字面排序屬性表 13 CNS 14754, X 5067 CNS碼 字型 常用音 部首 總筆 劃 部首 筆劃 部首外 筆劃 筆 順 CNS碼 字型 常用音 部首 總筆 劃 部首 筆劃 部首外 筆劃 筆 順 1-4421 一 1 1 0 - 1-4422 乙 1 1 0 - 1-4423 一 2 1 1 -| 1-4424 一 2 1 1 -| 1-4425 2 1 1 /- 1-4426 乙 2 1 1 /- 1-4427 2 1 1 -| 1-4428 二 2 2 0 - 1-4429 人 2 2 0 / 1-442A 儿 2 2 0 /| 1-442B 入 2 2
19、 0 / 1-442C 八 2 2 0 / 1-442D 几 2 2 0 /- 1-442E 刀 2 2 0 -/ 1-442F 刀 2 2 0 -/ 1-4430 力 2 2 0 -/ 1-4431 匕 2 2 0 -| 1-4432 十 2 2 0 -| 1-4433 卜 2 2 0 |. 1-4434 又 2 2 0 -/ 1-4435 一 3 1 2 - 1-4436 一 3 1 2 -|. 1-4437 一 3 1 2 -/ 1-4438 一 3 1 2 |- 1-4439 3 1 2 ./| 1-443A 、 3 1 2 /-. 1-443B 、 3 1 2 /-. 1-443C
20、3 1 2 /-/ 1-443D 3 1 2 /. 1-443E 乙 3 1 2 -| 1-443F 乙 3 1 2 /- 1-4440 二 3 2 1 -| 1-4441 3 2 1 .-| 1-4442 儿 3 2 1 -/| 1-4443 刀 3 2 1 -/. 1-4444 3 2 1 /-. 1-4445 十 3 2 1 /-| 1-4446 又 3 2 1 -/. 1-4447 口 3 3 0 |- 1-4448 土 3 3 0 -|- 1-4449 士 3 3 0 -|- 1-444A 夕 3 3 0 /-. 1-444B 大 3 3 0 -/ 1-444C 女 3 3 0 /-
- 1.请仔细阅读文档,确保文档完整性,对于不预览、不比对内容而直接下载带来的问题本站不予受理。
- 2.下载的文档,不会出现我们的网址水印。
- 3、该文档所得收入(下载+内容+预览)归上传者、原创作者;如果您是本文档原作者,请点此认领!既往收益都归您。
下载文档到电脑,查找使用更方便
10000 积分 0人已下载
下载 | 加入VIP,交流精品资源 |
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- CNS147542003SORTINGATTRIBUTESFORCHINESEDATAPROCESSING 中文 信息 排序 属性 标准 PDF

链接地址:http://www.mydoc123.com/p-634518.html