第2章 文本.ppt
《第2章 文本.ppt》由会员分享,可在线阅读,更多相关《第2章 文本.ppt(73页珍藏版)》请在麦多课文档分享上搜索。
1、第 2章 文本* 1南京大学多媒体研究所内容内容一、编码一、编码二、文本输入二、文本输入三、文本处理三、文本处理四、文本显示四、文本显示Date 2南京大学多媒体研究所什么是文本 (text)?o 文本是计算机表示文字信息的一种媒体o 文本是一个字符流,它由一连串的字符组成o 文本处理过程:文本展现(阅读器)文本处理(文本处理软件)文本输入其他媒体电子文本文本编辑(编辑器) 格式化的电子文本Date 3南京大学多媒体研究所电子文本的两种形式o 扫描文本n 是纸介质文本经过扫描输入后得到的,实质上是一种特殊的位图图像 (bitmap)。o 合成文本n 也称为编码文本,它是基于特定字符集的、具有上
2、下文相关性的一个字符流,每个字符均使用编码表示。这是计算机中常用的文本形式Date 4南京大学多媒体研究所文本的分类o 按 是否格式化分:n 简单文本 (plain text) / 丰富格式文本 (rich text)o 按结构分:n 线性文本 / 超文本 (hypertext)Date 5南京大学多媒体研究所一、编码一、编码* 6南京大学多媒体研究所几个编码标准几个编码标准o ASCIIo ISO8859-1o GB2312o GB12345o GBKo CJKo BIG5o UCSo Unicodeo UTF-8o UTF-16o UTF-32o GB18030Date 7南京大学多媒体研
3、究所ASCIIo 计算机中使用得最广泛的西文编码字符集 :美国标准信息交换码 (American Standard Code for Information Interchange, 简称 ASCII码 ),后来被批准为 ISO-646-US标准o ASCII字符集中:n 96个可打印字符 32个控制字符n 采用 7位二进制进行编码Date 8南京大学多媒体研究所ASCII码码 / ISO-646-US标准标准012345670 1 2 3 4 5 6 7 8 9 A B C D E FGB 1988-80 (ISO 646-CN) ¥Date 9南京大学多媒体研究所ISO-646的 本地化I
4、SO-646-DK( 丹麦) ISO-646-DE( 德国) Date 10南京大学多媒体研究所ISO 646的不足o 7位 代码空间太小,o 不同国家和地区使用不同的标准,难以兼容,o 东亚地区使用的大字符集无法编码,Date 11南京大学多媒体研究所扩充扩充 ASCII字符集字符集C0 C1 GRGL单 8位 代码空间 1 Latin1 (West European) 2 Latin2 (East European) 3 Latin3 (South European) 4 Latin4 (North European) 5 Cyrillic 6 Arabic 7 Greek 8 Hebre
5、w 9 Latin5 (Turkish) 10 Latin6 (Nordic) 按国家 /地区分别编码。 ISO陆续制定了十多个适用于不同国家和地区(均为拉丁语系)的扩充 ASCII字符集(高位为 1的8位代码),称为 ISO8859. Date 12南京大学多媒体研究所ISO 8859 扩充 ASCII字符集 (举例 )ISO-8859-2(East European) ISO-8859-1(West European) Date 13南京大学多媒体研究所MS-Windows 的 code pageo 代码页实际上就是各个不同的字符集。微软公司在开发 DOS和Windows的各文种产品时,将
6、各文种的字符集加以整理,并对每个具体的代码页都赋以一个代号,称作 “代码页 ID”。 比如: CP1252代码页是 ISO 8859-1的扩充,是 ISO 8859-1的超集Date 14南京大学多媒体研究所汉字的编码汉字的编码o 汉字( Chinese character, Han character, Hanzi) 是记录汉语(国语,华语)的文字,属于表意文字,它用符号直接表达词或词素。中文文本的基本组成单位是汉字字符。o 汉字的特点n 数量大(我国汉字自 古至今累计已超过 7万字 ,国家语委颁布的 “现代汉语通用字表 ”包含 7000汉字)n 多个国家和地区使用:香港,台湾地区,以及日本
7、、韩国、朝鲜,新加坡,马来西亚等。n 字形复杂,同音字多,异体字多。Date 15南京大学多媒体研究所汉字正形汉字正形o 同一个宋体字有不同笔画或不同结构的,选择一个便于辨认,便于书写的形体;o 同一个字宋体和手写楷书笔画结构不同的,宋体尽可能接近手写楷书;不完全根据文字学的传统。Date 16南京大学多媒体研究所GB2312-1980o 1981年颁布, 信息交换用汉字编码字符集 基本集 。o GB2312字符集由三个部分构成n 字母、数字和各种符号,包括拉丁字母、俄文、日文平假名与片假名、希腊字母、汉语拼音等共 682个(统称为 GB2312图形符号);n 一级常用汉字,共 3755个,按
- 1.请仔细阅读文档,确保文档完整性,对于不预览、不比对内容而直接下载带来的问题本站不予受理。
- 2.下载的文档,不会出现我们的网址水印。
- 3、该文档所得收入(下载+内容+预览)归上传者、原创作者;如果您是本文档原作者,请点此认领!既往收益都归您。
下载文档到电脑,查找使用更方便
2000 积分 0人已下载
下载 | 加入VIP,交流精品资源 |
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 文本 PPT
