汉字编码系统_词库_宝库

汉字编码系统，就是汉字编码系列的集合。它具有共同的编码模式，统一的拼写代码，从共同的初始编码出发，演化出一个个相互联系、相互演化的汉字编码系列，将这些汉字编码系列集合起来，就组成一个汉字编码系统。它将字词基本属性的拼写描述，作为编码演化的基础，能够充分满足拼音识字的教学要求。可为汉字编码，扩展一些新的用途。

提要

在中国，为了保证对于所有系统中文的编码一致能够互相进行操作，中文信息编码由政府负责制定并监督实施。我国的GB18030标准作为强制标准实行，所有不支持GB18030标准的软件将不能作为产品售出。

汉字编码，包括计算机内码和外码。外码中的输入编码，具有很多编码样式。这些编码，它们各自独立，不成体系。假如，我们把这些编码系统化，模式化，让它们既具有“个性化”，又具有“通用性”，并且，不局限于汉字输入，那么，这样的汉字编码，将会发生一些全新的变化。

做法

定义汉字编码

汉字编码，就是字词基本属性的拼写形式，这些拼写形式，是用《汉语拼音方案》拼写的。

这个定义规定：①编码内容，是字词的基本属性。这些基本属性，是最基本的启蒙常识，包括汉字的读音、笔顺、偏旁部首及其组合等内容。②拼写工具，是《汉语拼音方案》。

建立编码模式

汉字编码的“通用模式”是：

[汉字编码]=[读音描述’]+[形义特征描述’]+[检索序号]；

等式右边，包括读音部分、形义特征部分和序号部分；各部分及分隔符号，可根据需要定义取舍。

读音部分，描述字词的读音属性，它按照《汉语拼音方案》和《汉语拼音正词法基本规则》的规定，拼写字词。

形义特征部分，描述字词的笔顺、偏旁部首和词性等属性，或同音字词的区别特征。

序号部分，描述字词在同一个属性分类中的排列顺序，其自身，也是一种语文属性，它使字词的属性描述具有确定性。

这个共同的编码“通用模式”，具有开放性，它可以不断地扬弃和吸收，以适应社会信息化需要。利用编码通用模式，可以实现编码样式的相互演化。

取其“读音描述”部分，就是现有的“音码”；

取其“形义特征”部分，就是现有的“形码”；

两部分全取，就是现有的“音形码”；调换两部分位置，就是现有的“形音码”。

定义系统代码

“汉字编码系统”，使用统一的代码。它们是：

(1)、读音代码，描述字词读音和部件名称；用《汉语拼音方案》拼写，或缩写。

(2)、笔画代码，描述汉字笔画或书写笔顺；横、竖、撇、点、折，用《汉语拼音方案》拼写，或缩写。

(3)、声调代码，描述汉语音节的声调；阴平、阳平、上声、去声，用《汉语拼音方案》拼写，或缩写（阳平声调的缩写，用“平”字的声母“p”表示），轻声不标，或将声调用数字表示。

(4)、序号代码，描述字词在属性分类中的排列序号，用汉语拼音字母表示，按字母表排序，或用数字表示，或将字母（或数字）定义相应的数值进制。

汉字部件，有读音的，用读音代码描述；无读音的，用笔画代码描述；也可以全用笔画代码描述。

确定字词属性

拼音识字阶段，字词的基本属性，可首选为：读音、笔顺，然后再加入：部首、偏旁（部件）。

字词读音，按普通话拼写。多读音的，教学用码，以《小学生规范字典》的注音范围为依据；社会用码，以辞书典籍为注音依据，尽量全面收录。

字形，依据GB18030-2005文件字形。

书写笔顺，有国家标准的，按标准拼写；无标准的，按现有标准类推拼写；无法类推的，按笔顺的一般原则确定。

部首，据形归部，采用201部。取部方法，参照《如何确定汉字部首》(3)。

部首、偏旁（部件）名称，有读音依据的，用读音称说；无读音依据的，采用“俗称”。

建立数据库

以《汉字属性数据库》，作为建立“汉字编码系统”的数据载体（基础）。《汉字属性数据库》，对汉字属性（包括读音、笔顺、部首、部件组合、结构类型、字形标志等）作全面反映。属性描述中，对没有规范依据和参考依据的字词属性，一律留出“空缺（空白）”，待有规范依据和参考依据时，再加以补充。

意义

建立“汉字编码系统”的实用意义在于：

汉字编码规范化

“汉字编码系统”，使用法定的拼写工具（《汉语拼音方案》）和统一的汉语拼音代码，具有通用的编码模式；所有编码，按系列排序；不同编码系列，具有共同的初始编码，并以此相互演化。

汉字文化传承

“汉字编码系统”，将字词的基本属性全面描述，作为初始编码，使字词的各种编码样式，具有共同的汉字文化基础。

扩展应用范围

在“汉字编码系统”，汉字编码，将具有可读性，确定性，它可以在汉字输入，网络交流，机器翻译，计算机底层语言方面，发挥应有的作用。

应用

新的输入理念

大多的汉字输入编码，它是字词属性的固定组合，它是从码表中，检索“固定的”组合编码；“汉字编码系统”，它是字词属性的随机组合，它是从码表中，或数据库中，检索“随机的”组合编码。这种“随机性”，是由使用者依据自己的意愿，“随机”组合的。

大多的输入方法，输入规则，是别人定好了的。使用者要做的，就是去学习和适应别人的输入规则。“汉字编码系统”，则换了一种角度，不要求使用者怎样怎样，而是让使用者， “在语文常识范围内，汉字，您想怎么打，就怎么打”。它的试验模型，叫《语文输入法》(4)。

为读物标注

将汉字编码，标注在启蒙读物中。不识字幼儿，可以利用计算机，一边输入，一边跟随机器阅读。小学生，可以借助汉字标注，直接在字典中查找汉字的其它注释。这里，以《三字经》标注为例，对汉字标注加以说明(5)。标注样式为“读音’部首’序号”样式，隔音符号前面，是汉字的读音，隔音符号后面，是汉字的部首代码和检索序号，整个标注样式，就是汉字的输入编码。比如，“人”字，读音是“rén”，部首代码是“r”，检索序号是“b”，它的输入编码是“ren2'rb”。

下面，是《三字经》的标注片段:

rén'rb zhī'd chū'y xìnɡ'x běn'm shàn'yb

人之初性本善

xìnɡ'x xiānɡ'm jìn'cb xí'z xiānɡ'm yuǎn'c

性相近习相远

ɡǒu'c bú'h jiào'p xìnɡ'x nǎi'z qiān'cb

苟不教性乃迁

jiào'p zhī'd dào'c ɡuì'b yǐ'r zhuān'h

教之道贵以专

网络交流

年轻人，喜欢用拼音输入，然后，转成汉字，进行网上交流。实际上，单用拼音，也能进行交流。

比如，nin hao！（您好！）

这种交流，拼写有时可能不具有确定性。

但是，采用“汉字编码系统”的“读音’部首代码’检索序号”样式，可以实现汉字与拼写，一一对应（5）。

本人尝试过，对27000个汉字，采用这种拼写样式，汉字与拼写，一一对应。

比如，“善”字，采用“读音’部首代码’检索序号”样式拼写，可以划分为三个应用层次：

(1)、一般拼写：shan4 （“拼音”样式）；

(2)、熟练拼写：shàn'y （“拼音’部首代码”样式）；

(3)、计算机内码：shàn'yb （“拼音’部首代码检索序号”样式）。

其它应用

(1)、用作计算机底层语言的汉字编码。

现在，汉字编码还不能参与计算机底层运算，也不能编制计算机底层应用程序。因为，现有的汉字编码，还不能人机识读，不具有“翻译”的确定性。“语文编码”，能够人机识读，字词与编码，具有唯一的确定性。

(2)、用作机器翻译的汉字编码。

字词的机器翻译，将遇到多音字词，多义字词的困扰。而“语文编码”，将字词的读音、词义标注的一清二楚，并具有确定性。

投稿

快好知 kuaihz 订阅 看过 栏目

最新看过  赞过

最新 看过 赞过

最新看过赞过