信息系统中英文与中文系统的比较
2021-05-07
来源:欧得旅游网
第2期 顾剑:信息系统中现行英文与中文系统的比较 131 如有多少汉字就是一个难题,《汉语大字典》用收列单字五万六千字左右…,《中华字海》用收录楷书汉 字八万五千余个 ,《新华字典》用收单字10 000余个 表述.汉字字符的数量,在理论上是无限的,在现实 中是不确定、发展的.从技术层面看,英文系统基本使用ASCII标准,而中文系统涉及的概念就非常多,如GB 码、bi 码、ISO码、输入码、交换码和内码等. 本文仅从信息系统字符编码的角度出发,对英文和中文系统进行比较,并做初步的探讨. 1 信息系统中字符编码的作用 信息系统中字符编码有2个方面作用:1)文字信息的处理;2)文字本身的处理.文字信息的处理和文字 本身的处理在技术层面有很多的交叉,对文字本身的处理也可以说是文字信息处理的一部分.因此,将2个 问题合为文字信息处理来讨论. 在计算机被发明之前,对文字信息的处理只能是在一个很小或局部的范围之内进行,如每个单位的 人事档案就是对名字处理.随着计算机技术的不断发展,英文系统已经很好地实现了文字信息处理,但是 中文系统还没有从根本上进行解决. 1.1 文字输入文字信息处理的首要任务是文字的输入,即文字的输入是文字记录的前提.英文系统由 于ASCII标准的建立,已经在理论和实践上很好地解决了文字输入的问题,英文是直接“写”(输入)的,而 中文系统至今不论是在理论层面还是在应用系统中都没有得到很好地解决. 在信息系统中的中文系统中,给出任意一个汉字A,将其输入的唯一技术基本流程是 1)找出全部的汉字图形和输入方式对照表; 2)从头到尾,一张表一张表,一个汉字图形一个汉字图形地去与汉字A比较; 3)得出比较结果一:如果确认给出的汉字A在某张表中,则用该张表中给出的输入方式输入汉字A, 输入成功; 4)得出比较结果二:如果确认给出的汉字A不在这些表中,输入失败. 该技术的核心是汉字图形和输入方式对照表,不是直接“写”(输入)汉字.由于采用的汉字图形和输 入方式对照表的差异,导致目前汉字的输入编码体系繁多. 此外,用造字技术来解决输入给出的任意一个汉字A的问题,即在输入时允许输入者修改汉字图形 和输入方式对照表中的汉字图形.造字技术在整个信息系统中是不可行的,即不能进行彼此交换和传播, 通俗地讲就是只在修改的设备上可以看到汉字4,而在其他设备上看到的不是汉字A而是一个空白或一个 其他图形.不仅如此,造字技术还有一个根本的缺陷,即给出的汉字数量比对照表中的图形无法解决问题. 中文文字信息处理的基本流程还不能自动完成,其难点是:不论在理论还是在实践上,计算机技术还没 有办法准确完成流程中的第二步. 1.2 已记录文字的分类“对已输入文字进行分类是信息处理的基本方法. 英文系统依据ASCII编码,可以准确地对所有输入的文字进行科学分类.如,对于“work”,“workee”和 worker”3个文字,依据ASCII编码W是数77(文中数字是16进制,下同)、O是6f、r是72、k是6b,因此在 信息系统中“work”是数776ff26b,“workee”是数776ff26b6565,“worker”是数776ff26b6572. 在英文系统可以对此进行准确的信息技术领域里的分类和处理,如: 按长度分类:“work”是4个ASCII码,“worker”是6个ASCII码,即“work”比“worker”短2字节. 按位置分类: 1)可准确给出在信息系统的信息中,“work”在前,“worker”后; 2)可准确给出确定数量的在“work”和“worker”之间的其他所有4个,5个,6个ASCII码的“文字”, “workee”就是其中一个; 3)输入另一个文字A,可准确给出文字A与“work”和“worker”的相对位置. 4)“work”(776ff26b)前面的字是“worj”(776ff26a),后面的字是“”worl”(776ff26e). 132 海南大学学报自然科学版 2015年 结论的数量和意义在理论上是确定的,但因每次计算时的“环境”不同,结论的数量和意义可能不同, 即不同的使用“环境”会有不同的结果,但相同的“环境”一定具有相同的结果.这与使用文字的情况一样, 即同样的文字,在不同的“环境”下其含义不同. 5)用信息处理理论和技术对其进行处理,如用“0”和“01”来代替“work”和“worker”,可以大大提高 系统的时间和空间效率,降低系统成本,提高系统可靠性. 依据文字编码,对文字进行文字意义上的分类,如: 1)“work”与“worker”前4个ASCII相同,则发音一般相同; 2)“work”与“worker”前4个ASCII相同,则文字含义一般有相近的意义; 3)在普通字典中一般是“work”在前,“worker”在后; 4)输入文字“workee”,可给出“workee”在“work”之后,在“worker”之前,即3个文字的字典排序是 “work”,“workee”,“worker”的结果; 5)如果有普通电子字典,机器查询后找不到“workee”,可给出“workee”是一个非规范文字提示(普通 字典一定是排序的,可用索引技术查询,立即找到“workee”字). 因为中文系统依据文字编码无法进行已记录文字的科学分类和处理.如“坯”和“丕”2个文字,系统 依据文字编码给不出任何与文字有关的信息:即不能给出2个文字在文字意义上的任何关联性,如发音、 笔划数、字形结构、在普通字典的位置和文字含义是否接近等.如果输入另一个文字A,系统更不可能给出 文字A与“坯”和“丕”在文字含义上的任何关系.中文系统虽然可以对“坯”和“丕”进行编码上的排序,但 也只是流程第一步中某种汉字图形和输入方式对照表中汉字图形的位置,没有任何文字上的意义. 1.3不能用big5和GB字符编码对文字分类现行中文系统中大都使用big5和GB编码.“坯”和“丕” 在GB码中,“坯”是e5f7,“丕”是d8a7.如果用信息处理的基本处理技术处理,给出的结论是完全错误的. 1)数c5f7小于数d8a7,所以“坯”(c5f7)在前,“丕”(d8a7)在后; 2)数c5f7和数d8a7中间有d8a7一c5f7=12b0,即4 784个数,所以“坯”和“丕”2个字关系不大,且 中间有4 784个汉字; 3)“坯”(c5f7)前面的字是“碰”(c5f6),后面的字是“砒”(c5f8),“丕”(d8a7)前面的字是“卅” (d8a6),后面的字是“亘”(d8a8). 客观地讲,big5码至少在理论上考虑了字形的关系,如“汗、污、注、’7久、没、泯、’?开、沸、菜、’『内、沟、泫、 汰、汲”14个字,在信息系统中的数是9b40~9b4d.因此,系统给出以下结论: 1)数9b40小于数9b41,所以“汗”(9b40)在前,“污”(9b41)在后; 2)数91340和数9b41连续,所以“汗”和“污”2个字之间没有其他字; 3)“汗、污、注、’?久、波、溉、淠、、讲、荥、、『内、沟、泫、汰、汲”14个字编码上有前后顺序关系,因此可得出前 面的字(如“汗”9b40)至少不比后面的字(如“汲”9b4d)笔画多. 但这些结论是不能用或不完备的,如“、讲、菜、’7内”中的“荥”字,虽然有文字意义上的关联性,但在字形 上相差甚远. 在GB码中有一级汉字和二级汉字之分,但恰恰是这2个级别的汉字给信息系统造成致命的混乱. GB码一级汉字按音排序,二级汉字按形排序,在理论和实践上都给使用者带来永远都无解的难题:什么 字按音去找?什么字按形去找?最终能使用的技术也只有一个,即人工一个一个图形去对照.例如,“洪” 和“泊”2个字,GB码给出的是“泊”是一级汉字而“浜”是二级汉字. 2字符编码的理论基础 字符编码必须符合文字本身的内在特征,从信息系统的角度讲,最基本的一定是文字的无限性和有 序性. 2.1 文字的无限性 文字的无限性最直接和易理解的是文字的无限发展和数量的不确定性.汉语言文 第2期 顾剑:信息系统中现行英文与中文系统的比较 字是从无到有逐渐发展的,经历了甲骨文、文言文和白话文等,即便是在中华人民共和国成立后,中文系 统出现以前汉字还在不断发展,最好地例证就有新元素的命名、简化字多个版本的发布和废除部分试行 的简化字等.但在中文系统出现后,汉字发展出现了停滞,字符数量甚至有减少的趋势.目前,在我国大陆 常用的GB码图形有6千多个,在台湾地区常用的bi 码图形有1.3万个左右.因而如果在中国使用计算 机,一般人不但不能使用《汉语大字典》中的5.6万左右的汉字,即便是《新华字典》中的1万汉字也无法 全部使用. 中文系统中的字符编码使用定长码与文字的无限性相违,而英文系统使用不定长编码则与文字无限 性相符. 2.2 文字的有序性文字的有序性是文字的根本属性之一.若文字是无序的,使用者就不可能找出某个 确定的文字,也就不可能使用文字. 使用文字一定是依据其形、音或某种其他特征进行排序,具体的每一个字都是从此序列中找出.通常 使用时并没有意识到这一点,只有在遇到不认识或不会写的字时才想到怎样根据文字的有序性找出.例 如要写“一般”,可“般”字不会写,可以在字典中按音的排序找到“ban”对应的汉字“般”,从而最终写出 “一般”;请教他人时,被请教的人也要按自己固有的某种顺序去找出这个字,只是并未细想查找这个字的 方法的有序性. 文字的有序性不仅可以保证很快找到某一个字,而且可以很快确定某一个字是否存在.现行中文系 统没有满足文字的无限性,也就在根本上不能符合文字的有序性.因此,所有现行中文系统中的输入都是 用遍历全部汉字图形的方式去查找需要输入的文字,即汉字输入技术基本流程的第二步:检查其是否存 在于某张汉字图形和输入方式对照表中. 英文系统采用的ASCII码充分考虑了文字本身内在的有序性,因此,英文系统中的英文具有文字本义 上的有序性,保证了英文系统可依据编码进行技术上的处理而得出有实用用途的文字意义上的关联. 2.3 文字的类别 任何文字都可以分为:正确、现在错误将来正确和永远错误3类.认为计算机中的文 字都是正确的,这是一个误解.存在于信息系统中的文字与书本上的文字一样,都可能被损毁,损毁后到 底是一个正确的字还是一个不正确的字,则是一个不确定的结果.如果一个文字编码系统不能处理这3 类文字,则在理论上是不能处理全部文字的,就是不完备有缺陷的,不可能实现系统的无限性和有序性. 英文系统之所以可做到系统中文字数量的无限性和有序性,其理论基石就是可以区分这3类文字. 若把英文系统中的英文与现实社会中的英文等同起来,则英文系统就能处理这3类文字. 3 中文系统字符编码发展展望 3.1 实现字符编码无限和有序的现实必要性 随着社会的发展,现有中文系统本身的缺陷在很多领域 都越来越明显.如行政管理部门在很早就提出了各种账户实名制的要求,但在技术层面中文系统至今还 不能实现 一7 3;在文化教育领域,现行中文系统推广的最终结果是使用者不需要写汉字,总在感慨提笔忘 字.特别是随着智能化汉字输入应用系统的开发,在中文系统上输入图形更方便,远离汉字字符且呈现出 加速的趋势. 3.2实现字符编码无限和有序性的可能性现实中的文字一定有3类,则理论上就要求信息系统必须 要处理,否则就不能满足实际需求.只要去研究和实践,就一定可以做到中文系统中字符编码的无限性和 有序性.英文系统已经给出了很好的实例.如果实现了中文系统的无限性和有序性,达到与英文系统同样 的技术水平,则的信息系统会大大推进整个社会,包括技术和人文的巨大进步. 3.3 实现字符编码无限和有序性实践的可行性虽然计算机和现代信息系统不是使用汉字的人发明, 最先用计算机处理汉字的也不是使用汉字的民族,但按照信息论理论,最终完成汉字无限性和有序性系 统的人一定是使用汉字的人,因为汉字内在的信息熵在自然界中是实际存在的,且只有使用汉字的人才 可能真正掌握这个熵的含义. 134 海南大学学报自然科学版 2015年 实际上,《无限有序字符集汉字全集方法和系统》Es;专利,不但在理论而且在技术上,给出了解决此问 题的完整技术方案.该发明专利技术指出,中文系统中的字符编码,一定是一不定长编码以符合文字的无 限性要求;且其最基本的编码要素要符合汉字内在的规律:如笔划形状、数量,如偏旁部首,如字形结构等 等.若采用此项发明技术,中文系统一定可以达到英文系统的技术水准,实现文字的无限性和有序性. 参考文献: [1]汉语大字典工作委员会.汉语大字典[M].武汉:湖北辞书出版社,1995. [2]冷玉龙,韦一心.中华字海[M].北京:中国友谊出版公司,1994. [3]中国社会科学院语言研究所词典编辑室.新华字典[M].10版.北京:商务印书馆,2004. [4]顾剑.实名存款给金融系统带来的一个技术问题[J].海南金融,1999,12(增刊):60—62. [5]顾剑.实名制给各种卡系统带来的新问题[J].金卡工程,2000,4:51—55. [6]顾剑.实名制带来汉字处理新课题[J].金融电子化,2002,5:56—57. [7]顾剑.实名制带来汉字处理新课题[N].金融时报,2002—7—16(10). [8]顾剑.无限有序字符集汉字全集方法和系统:中国,97105292.1[P].1997~08—06. Comparison of the English System and the Chinese System in Information System Gu Jian (College of Information Science and Technology,Hainan University,Haikou 570228,China) Abstract:The English system in information system has the characters of word inherent law,which can handle three kinds of words,correct,present mistake but future correct,and forever mistakes.However,because viola— ting word inherent endless and orderly law,the Chinese system can not handle all Chinese characters.Theory and reality require it must be able to handle all Chinese characters.So,there are some fundamental differences. The patent,Endless and orderly character set Chinese complete character set method and system,which was ap— plied in 1997 and authorized in 2003.can solve these problems. Keywords:literal code;literal endless character;literal orderly character;account real name system;Chinese characters system