更新时间:2024-05-21 13:36
汉字编码系统,就是汉字编码系列的集合。它具有共同的编码模式,统一的拼写代码,从共同的初始编码出发,演化出一个个相互联系、相互演化的汉字编码系列,将这些汉字编码系列集合起来,就组成一个汉字编码系统。它将字词基本属性的拼写描述,作为编码演化的基础,能够充分满足拼音识字的教学要求。可为汉字编码,扩展一些新的用途。
在中国,为了保证对于所有系统中文的编码一致能够互相进行操作,中文信息编码由政府负责制定并监督实施。我国的GB18030标准作为强制标准实行,所有不支持GB18030标准的软件将不能作为产品售出。
汉字编码,包括计算机内码和外码。外码中的输入编码,具有很多编码样式。这些编码,它们各自独立,不成体系。假如,我们把这些编码系统化,模式化,让它们既具有“个性化”,又具有“通用性”,并且,不局限于汉字输入,那么,这样的汉字编码,将会发生一些全新的变化。
汉字编码,就是字词基本属性的拼写形式,这些拼写形式,是用《汉语拼音方案》拼写的。
这个定义规定:①编码内容,是字词的基本属性。这些基本属性,是最基本的启蒙常识,包括汉字的读音、笔顺、偏旁部首及其组合等内容。②拼写工具,是《汉语拼音方案》。
汉字编码的“通用模式”是:
[汉字编码]=[读音描述’]+[形义特征描述’]+[检索序号];
等式右边,包括读音部分、形义特征部分和序号部分;各部分及分隔符号,可根据需要定义取舍。
读音部分,描述字词的读音属性,它按照《汉语拼音方案》和《汉语拼音正词法基本规则》的规定,拼写字词。
形义特征部分,描述字词的笔顺、偏旁部首和词性等属性,或同音字词的区别特征。
序号部分,描述字词在同一个属性分类中的排列顺序,其自身,也是一种语文属性,它使字词的属性描述具有确定性。
这个共同的编码“通用模式”,具有开放性,它可以不断地扬弃和吸收,以适应社会信息化需要。 利用编码通用模式,可以实现编码样式的相互演化。
取其“读音描述”部分,就是现有的“音码”;
取其“形义特征”部分,就是现有的“形码”;
两部分全取,就是现有的“音形码”;调换两部分位置,就是现有的“形音码”。
“汉字编码系统”,使用统一的代码。它们是:
(1)、读音代码,描述字词读音和部件名称;用《汉语拼音方案》拼写,或缩写。
(2)、笔画代码,描述汉字笔画或书写笔顺;横、竖、撇、点、折, 用《汉语拼音方案》拼写,或缩写。
(3)、声调代码,描述汉语音节的声调;阴平、阳平、上声、去声,用《汉语拼音方案》拼写,或缩写(阳平声调的缩写,用“平”字的声母“p”表示),轻声不标,或将声调用数字表示。
(4)、序号代码,描述字词在属性分类中的排列序号,用汉语拼音字母表示,按字母表排序,或用数字表示,或将字母(或数字)定义相应的数值进制。
汉字部件,有读音的,用读音代码描述;无读音的,用笔画代码描述;也可以全用笔画代码描述。
拼音识字阶段,字词的基本属性,可首选为:读音、笔顺,然后再加入:部首、偏旁(部件)。
字词读音,按普通话拼写。多读音的,教学用码,以《小学生规范字典》的注音范围为依据;社会用码,以辞书典籍为注音依据,尽量全面收录。
字形,依据GB18030-2005文件字形。
书写笔顺,有国家标准的,按标准拼写;无标准的,按现有标准类推拼写;无法类推的,按笔顺的一般原则确定。
部首,据形归部,采用201部。取部方法,参照《如何确定汉字部首》(3)。
部首、偏旁(部件)名称,有读音依据的,用读音称说;无读音依据的,采用“俗称”。
以《汉字属性数据库》,作为建立“汉字编码系统”的数据载体(基础)。《汉字属性数据库》,对汉字属性(包括读音、笔顺、部首、部件组合、结构类型、字形标志等)作全面反映。属性描述中,对没有规范依据和参考依据的字词属性,一律留出“空缺(空白)”,待有规范依据和参考依据时,再加以补充。
建立“汉字编码系统”的实用意义在于:
“汉字编码系统”,使用法定的拼写工具(《汉语拼音方案》)和统一的汉语拼音代码,具有通用的编码模式;所有编码,按系列排序;不同编码系列,具有共同的初始编码,并以此相互演化。
“汉字编码系统”,将字词的基本属性全面描述,作为初始编码,使字词的各种编码样式,具有共同的汉字文化基础。
在“汉字编码系统”,汉字编码,将具有可读性,确定性,它可以在汉字输入,网络交流,机器翻译,计算机底层语言方面,发挥应有的作用。
大多的汉字输入编码,它是字词属性的固定组合,它是从码表中,检索“固定的”组合编码;“汉字编码系统”,它是字词属性的随机组合,它是从码表中,或数据库中,检索“随机的”组合编码。这种“随机性”,是由使用者依据自己的意愿,“随机”组合的。
大多的输入方法,输入规则,是别人定好了的。使用者要做的,就是去学习和适应别人的输入规则。“汉字编码系统”,则换了一种角度,不要求使用者怎样怎样,而是让使用者, “在语文常识范围内,汉字,您想怎么打,就怎么打”。它的试验模型,叫《语文输入法》(4)。
将汉字编码,标注在启蒙读物中。不识字幼儿,可以利用计算机,一边输入,一边跟随机器阅读。小学生,可以借助汉字标注,直接在字典中查找汉字的其它注释。这里,以《三字经》标注为例,对汉字标注加以说明(5)。标注样式为“读音’部首’序号”样式,隔音符号前面,是汉字的读音,隔音符号后面,是汉字的部首代码和检索序号,整个标注样式,就是汉字的输入编码。比如,“人”字,读音是“rén”,部首代码是“r”,检索序号是“b”,它的输入编码是“ren2'rb”。
下面,是《三字经》的标注片段:
rén'rb zhī'd chū'y xìnɡ'x běn'm shàn'yb
人 之 初 性 本 善
xìnɡ'x xiānɡ'm jìn'cb xí'z xiānɡ'm yuǎn'c
性 相 近 习 相 远
ɡǒu'c bú'h jiào'p xìnɡ'x nǎi'z qiān'cb
苟 不 教 性 乃 迁
jiào'p zhī'd dào'c ɡuì'b yǐ'r zhuān'h
教 之 道 贵 以 专
年轻人,喜欢用拼音输入,然后,转成汉字,进行网上交流。实际上,单用拼音,也能进行交流。
比如,nin hao!(您好!)
这种交流,拼写有时可能不具有确定性。
但是,采用“汉字编码系统”的“读音’部首代码’检索序号”样式,可以实现汉字与拼写,一一对应(5)。
本人尝试过,对27000个汉字,采用这种拼写样式,汉字与拼写,一一对应。
比如,“善”字,采用“读音’部首代码’检索序号”样式拼写,可以划分为三个应用层次:
(1)、一般拼写:shan4 (“拼音”样式);
(2)、熟练拼写:shàn'y (“拼音’部首代码”样式);
(3)、计算机内码:shàn'yb (“拼音’部首代码 检索序号”样式)。
(1)、用作计算机底层语言的汉字编码。
汉字编码还不能参与计算机底层运算,也不能编制计算机底层应用程序。因为,现有的汉字编码,还不能人机识读,不具有“翻译”的确定性。“语文编码”,能够人机识读,字词与编码,具有唯一的确定性。
(2)、用作机器翻译的汉字编码。
字词的机器翻译,将遇到多音字词,多义字词的困扰。而“语文编码”,将字词的读音、词义标注的一清二楚,并具有确定性。