1.汉字字形编码有哪两种类型
汉字编码分为外码、交换码、机内码和字形码。
1.外码(输入码)
外码也叫输入码,是用来将汉字输入到计算机中的一组键盘符号。目前常用的输入码有拼音码、五笔字型码、自然码、表形码、认知码、区位码和电报码等,一种好的编码应有编码规则简单、易学好记、操作方便、重码率低、输入速度快等优点,每个人可根据自己的需要进行选择。在后面的章节中,重点介绍智能全拼输入法和五笔字型输入法。
2.交换码(国标码)
计算机内部处理的信息,都是用二进制代码表示的,汉字也不例外。而二进制代码使用起来是不方便的,于是需要采用信息交换码。中国标准总局1981年制定了中华人民共和国国家标准GB2312--80《信息交换用汉字编码字符集--基本集》,即国标码。
区位码是国标码的另一种表现形式,把国标GB2312--80中的汉字、图形符号组成一个94*94的方阵,分为94个“区”,每区包含94个“位”,其中“区”的序号由01至94,“位”的序号也是从01至94。94个区中位置总数=94*94=8836个,其中7445个汉字和图形字符中的每一个占一个位置后,还剩下1391个空位,这1391个位置空下来保留备用。
3.机内码
根据国标码的规定,每一个汉字都有了确定的二进制代码,在微机内部汉字代码都用机内码,在磁盘上记录汉字代码也使用机内码。
4.汉字的字形码
字形码是汉字的输出码,输出汉字时都采用图形方式,无论汉字的笔画多少,每个汉字都可以写在同样大小的方块中。通常用16*16点阵来显示汉字。
2.汉字的编码有几种
根据应用目的的不同,汉字编码分为外码、交换码、机内码和字形码。
1.外码(输入码)
外码也叫输入码,是用来将汉字输入到计算机中的一组键盘符号。常用的输入码有拼音码、五笔字型码、自然码、表形码、认知码、区位码和电报码等,一种好的编码应有编码规则简单、易学好记、操作方便、重码率低、输入速度快等优点,每个人可根据自己的需要进行选择。
2.交换码(国标码)
计算机内部处理的信息,都是用二进制代码表示的,汉字也不例外。而二进制代码使用起来是不方便的,于是需要采用信息交换码。中国标准总局1981年制定了中华人民共和国国家标准GB2312--80《信息交换用汉字编码字符集--基本集》,即国标码。
区位码是国标码的另一种表现形式,把国标GB2312--80中的汉字、图形符号组成一个94*94的方阵,分为94个“区”,每区包含94个“位”,其中“区”的序号由01至94,“位”的序号也是从01至94。94个区中位置总数=94*94=8836个,其中7445个汉字和图形字符中的每一个占一个位置后,还剩下1391个空位,这1391个位置空下来保留备用。
3.机内码
根据国标码的规定,每一个汉字都有了确定的二进制代码,在微机内部汉字代码都用机内码,在磁盘上记录汉字代码也使用机内码。
4.汉字的字形码
字形码是汉字的输出码,输出汉字时都采用图形方式,无论汉字的笔画多少,每个汉字都可以写在同样大小的方块中。通常用16*16点阵来显示汉字。
5.汉字地址码
汉字地址码是指汉字库中存储汉字字形信息的逻辑地址码。它与汉字内码有着简单的对应关系,以简化内码到地址码的转换。
3.【简述汉字输入码,汉字内码,汉字字形码,汉字交换码区别】
计算机中信息的编码 在计算机中,各种信息都是以二进制编码的形式存在的;也就是说,不管是文字、图形、声音、动画,还是电影等各种信息,在计算机中都是以0和1组成的二进制代码表示的;计算机之所以能区别这些信息的不同,是因为它们采用的编码规则不同.比如:同样是文字,英文字母与汉字的编码规则就不同,英文字母用的是单字节的ASCII码,汉字采用的是双字节的汉字内码;但随着需求的变化,这两种编码有被统一的UNICODE码(由Unicode 协会开发的能表示几乎世界上所有书写语言的字符编码标准)所取代的趋势;当然图形、声音等的编码就更复杂多样了.这也就告诉我们,信息在计算机中的二进制编码是一个不断发展的、高深的、跨学科的知识领域.1、字符(英文,包括字母、数字、标点、运算符等)编码 字符的编码采用国际通用的ASCII码(American Standard Code for Information Interchange,美国信息交换标准代码),每个ASCII码以1个字节(Byte)储存,从0到数字127代表不同的常用符号,例如大写A的ASCII码是65,小写a则是97.由于ASCII码只用了字节的七个位,最高位并不使用,所以后来又将最高的一个位也编入这套编码码中,成为八个位的延伸ASCII(ExtendedASCII)码,这套内码加上了许多外文和表格等特殊符号,成为目前常用的编码.基本的ASCII字符集共有128个字符,其中有96个可打印字符,包括常用的字母、数字、标点符号等,另外还有32个控制字符.标准ASCII码使用7个二进位对字符进行编码,对应的ISO标准为ISO646标准.下表展示了基本ASCII字符集及其编码: 字母和数字的ASCII码的记忆是非常简单的.我们只要记住了一个字母或数字的ASCII码(例如记住A为65,0的ASCII码为48),知道相应的大小写字母之间差32,就可以推算出其余字母、数字的ASCII码. 虽然标准ASCII码是7位编码,但由于计算机基本处理单位为字节(1byte = 8bit),所以一般仍以一个字节来存放一个ASCII字符.每一个字节中多余出来的一位(最高位)在计算机内部通常保持为0(在数据传输时可用作奇偶校验位).由于标准ASCII字符集字符数目有限,在实际应用中往往无法满足要求.为此,国际标准化组织又制定了ISO2022标准,它规定了在保持与ISO646兼容的前提下将ASCII字符集扩充为8位代码的统一方法.ISO陆续制定了一批适用于不同地区的扩充ASCII字符集,每种扩充ASCII字符集分别可以扩充128个字符,这些扩充字符的编码均为高位为1的8位代码(即十进制数128~255),称为扩展ASCII码.下表展示的是最流行的一套扩展ASCII字符集和编码: 2、汉字的编码(1)汉字内码 汉字信息在计算机内部也是以二进制方式存放.由于汉字数量多,用一个字节的128种状态不能全部表示出来,因此在1980年我国颁布的《信息交换用汉字编码字符集——基本集》,即国家标准GB2312-80方案中规定用两个字节的十六位二进制表示一个汉字,每个字节都只使用低7位(与ASCII码相同),即有128*128=16384种状态.由于ASCII码的34个控制代码在汉字系统中也要使用,为不致发生冲突,不能作为汉字编码,128除去34只剩94种,所以汉字编码表的大小是94*94=8836,用以表示国标码规定的7445个汉字和图形符号. 每个汉字或图形符号分别用两位的十进制区码(行码)和两位的十进制位码(列码)表示,不足的地方补0,组合起来就是区位码.把区位码按一定的规则转换成的二进制代码叫做信息交换码(简称国标码).国标码共有汉字6763个(一级汉字,是最常用的汉字,按汉语拼音字母顺序排列,共3755个;二级汉字,属于次常用汉字,按偏旁部首的笔划顺序排列,共3008个),数字、字母、符号等682个,共7445个. 由于国标码不能直接存储在计算机内,为方便计算机内部处理和存储汉字,又区别于ASCII码,将国标码中的每个字节在最高位改设为1,这样就形成了在计算机内部用来进行汉字的存储、运算的编码叫机内码(或汉字内码,或内码).内码既与国标码有简单的对应关系,易于转换,又与ASCII码有明显的区别,且有统一的标准(内码是惟一的). (2)汉字外码 无论是区位码或国标码都不利于输入汉字,为方便汉字的输入而制定的汉字编码,称为汉字输入码.汉字输入码属于外码.不同的输入方法,形成了不同的汉字外码.常见的输入法有以下几类: 按汉字的排列顺序形成的编码(流水码):如区位码; 按汉字的读音形成的编码(音码):如全拼、简拼、双拼等; 按汉字的字形形成的编码(形码):如五笔字型、郑码等; 按汉字的音、形结合形成的编码(音形码):如自然码、智能ABC. 输入码在计算机中必须转换成机内码,才能进行存储和处理. (3)汉字字形码 为了将汉字在显示器或打印机上输出,把汉字按图形符号设计成点阵图,就得到了相应的点阵代码(字形码). 全部汉字字码的集合叫汉字字库.汉字库可分为软字库和硬字库.软字库以文件的形式存放在硬盘上,现多用这种方式,硬字库则将字库固化在一个单独的存储芯片中,再和其它必要的器件组成接口卡,插接在计算机上,通常称为汉卡. 用于显示的字库叫显示字库.显示一个汉字一般采用。
4.汉字编码按编码方法不同,可分为哪四大类
汉字编码主要分为四大类:汉字输入码、汉字交换码、汉字内码和汉字字形码。
(1)汉字的外部码
汉字的外部码简称外码,又叫输人码,是输人汉字的一组键盘符号。使用不同的输入方法,同一汉字的外部码不同。用户应选用易记忆、操作简单、位码少、重码少和输人速度快的外码。
(2)汉字的内部码
汉字的内部码又称汉字内码或汉字机内码。机器接收到外码后,要转换成内码进行存储、运算和传送。用二个字节表示汉字的内码。为了和西文符号区分,内码的最高位设为“1”。内码通常用汉字在车库中的物理位置表示,可以是汉字在字库中的序号,也可以是字库中的存储位置。
(3)汉字交换码
在计算机之间交换信息时,要求传送的汉字代码符合国家规定的交换码标准,即符合GB2312-80信息交换用汉字编码集,又称为国标码。国标码收集了7445个图形字符,其中有6763个汉字和各种符号709个。
国标码规定,每个汉字用两个字节表示,每个字节仅用低7位,最高位为0。汉字的国标码和内码有—一对应关系,即将高位加l,国标码就变为内码。
(4)汉字字形码
在显示或打印汉字时,还涉及到字形码,又称输出码。汉字字形是指原来铅字排版汉字的大小和形状,在计算机中指组成汉字的点阵。尽管汉字字形有多种变化,笔画繁简不一,但都是方块字且大小相同,都可以写在同样的方块中。把一个方块看成m行n列矩阵,共有m*n个点,称为汉字点阵。如16*16点阵的汉字,共有256个点
汉字点阵和字形的对应关系是,有笔画处的点为1,无笔画处的点为0。这样,汉字的点阵可以对应若干字节长的字形码。这种表示汉字点阵的方法称为汉字字形的数字化表示法。