汉字编码国家标准

更新时间:2023-05-30 15:06

汉字编码国家标准,分为双字节部分和四字节部分;双字节部分和GBK基本完全相同。四字节部分,比GBK多了6582个汉字(27484-20902)。

现有汉字编码

GB 2312-1980(信息交换用汉字编码字符集 基本集)

GBK-1995(汉字内码扩展规范)

GB13000.1-1993(信息技术 通用多八位编码字符集(UCS)第一部分:体系结构与基本多文种平面(idt ISO/IEC 10646.1-1993))

GB18030-2000(信息交换用汉字编码字符集 基本集的扩充)

不同相互关系

GB 18030完全兼容GBK、GB2312,并且是后二者的替代标准,也将是今后唯一的字符集国家标准。

GB 18030和GB13000.1的关系:在字汇上兼容,码表则不兼容。例如,两个标准中都会有“啊”字,但两个标准中,“啊”的内码是不同的。

GB13000.1和ISO10646为同一体系,与工业标准Unicode3.1是兼容的。

GB18030

该标准分为两个部分:双字节部分和四字节部分。

双字节部分和GBK基本完全相同。

四字节部分,比GBK多了6582个汉字(27484-20902),0x8139ef30~0x82358738。对应GB13000.1则为0x3400~0x4db5。

支持的标准

2001年9月1日后的Windows 2000 的补丁版;

Windows XP;

以及一些Linux、Unix的OS。

存在的问题

由于GB18030中包括了4字节编码汉字,和Windows平台中普遍使用的2字节编码的GBK和Unicode3.1有较大区别,因此在使用中出现了很多问题。例如微软的Windows XP中实际上只支持Unicode3.1编码,并不支持GB18030的4字节编码汉字。

免责声明
隐私政策
用户协议
目录 22
0{{catalogNumber[index]}}. {{item.title}}
{{item.title}}