汉字基因工程 缘起 一九七三年,我旅居巴西圣保罗,在一家规模极大的“四月出版公司”中,任 美工完稿。一天,我目睹了一本书的出版,由手稿印成书籍到运送销售,不过整整十 二个小时! 当时中文印书尚停留在活版铅字时代,印一本十五万字的书,排版要四个月,校 对再排要三个月,三次的校对就是九个月。若是一年内能上市,作者应该额手称庆了。 我心中的感慨既深且远,如果中文处理不能具相同的效率,中文迟早将被时代淘 汰。再若中文淘汰了,国人全盘接受外国文化的洗礼,那又能算什么人?千秋万世的 后代子孙,怎知中华文化在绝灭前,曾经绵延过五千年,曾经令黄土高原光辉灿烂? 义无反顾地,我决定献身于中文的研发工作,默默地耕耘了二十六年。如果可能,我 打算再努力另一个二十六年。毕竟,文化是永无止境的! 同年,我先回到台湾,在一九七六年先发表了“形意检字法”。我作过试验,如 果用在铅字的排列上,可以增加约五倍的检字效率。此外,我发现我所采用的字根, 正是文字的基因,除了字形可供取码外,如果选取及安排得当,完全可以代表文字所 有的机能。 尤其是在汉字(中文尚包括其它民族文字)中,百分之九十是形声字,除了声符 之外,形声字尚有“假借”的机能,也就是说,前缀代表分类,字身可作定义之用。 为此,我对检字法的要求,是以字义的理解为第一诉求。 一九七八年,时年四十有二,我有幸接触到计算机,愤而学习。在一个月内,我 边学边做,试着写作程序,将我的检字法与计算机字形结合,并完成了史上第一套军 用通讯系统。当时,蒋纬国将军特别命名为“仓颉输入法”。 一九七九年,我利用仓颉输入法的字根观念,完成了“向量字形产生器”的设计。 同时,在程序设计过程中,我又发现如果倒反流程,就相当于文字辨识。 同年,我用这些观念,设计了一台具有简单概念的“中文计算机”。由于我无力 生产,便与宏基公司合作,只提供了字码输入及字形输出的功能,另外由宏碁公司设 计了中文操作系统及中文程序语言。 一九七九年九月,我和宏基公司共同发表了“天龙中文计算机”,打破了计算机 不能使用中文的迷信。 此后,我继续从事汉字的研究,达二十年之久。一九八九年八月,我曾与深圳科 技工业园合作,完成“汉字大字库”,国家科学院在北京友谊宾馆,举行技术审核及评 估。最后在十余位第一流科学家的审核下,评定为“超过世界水平”。 一九九○年六月,我发展的“聚珍整合系统”,又在国家科学院的核估下,被评 为“超过世界水平”的软件技术。 一九九一年我回到台湾,为了抗衡微软的文化侵略,我坚决认定微软窗口应该把 文字接口公开,令从事中文软件的业者,保有一线生机。但微软悍然拒绝,我又寻求 台湾信息策进会合作,协助他们在窗口3.O上,建立了一个中文系统,其功能远胜 微软之中文窗口。 微软立刻拉拢台湾软件界,合纵连横。一九九二年,台湾仅有的十余家软件公司, 不是成为微软的代销业者,就是被蚕食鲸吞。最后微软推出窗口3.1,并取消了资 策会版本更新的权利,至此大势已去,事到如今,台湾的中文软件界已告全军覆没
汉字基因工程 一、 缘起 一九七三年,我旅居巴西圣保罗,在一家规模极大的“四月出版公司”中,任 美工完稿。一天,我目睹了一本书的出版,由手稿印成书籍到运送销售,不过整整十 二个小时! 当时中文印书尚停留在活版铅字时代,印一本十五万字的书,排版要四个月,校 对再排要三个月,三次的校对就是九个月。若是一年内能上市,作者应该额手称庆了。 我心中的感慨既深且远,如果中文处理不能具相同的效率,中文迟早将被时代淘 汰。再若中文淘汰了,国人全盘接受外国文化的洗礼,那又能算什么人?千秋万世的 后代子孙,怎知中华文化在绝灭前,曾经绵延过五千年,曾经令黄土高原光辉灿烂? 义无反顾地,我决定献身于中文的研发工作,默默地耕耘了二十六年。如果可能,我 打算再努力另一个二十六年。毕竟,文化是永无止境的! 同年,我先回到台湾,在一九七六年先发表了“形意检字法”。我作过试验,如 果用在铅字的排列上,可以增加约五倍的检字效率。此外,我发现我所采用的字根, 正是文字的基因,除了字形可供取码外,如果选取及安排得当,完全可以代表文字所 有的机能。 尤其是在汉字(中文尚包括其它民族文字)中,百分之九十是形声字,除了声符 之外,形声字尚有“假借”的机能,也就是说,前缀代表分类,字身可作定义之用。 为此,我对检字法的要求,是以字义的理解为第一诉求。 一九七八年,时年四十有二,我有幸接触到计算机,愤而学习。在一个月内,我 边学边做,试着写作程序,将我的检字法与计算机字形结合,并完成了史上第一套军 用通讯系统。当时,蒋纬国将军特别命名为“仓颉输入法”。 一九七九年,我利用仓颉输入法的字根观念,完成了“向量字形产生器”的设计。 同时,在程序设计过程中,我又发现如果倒反流程,就相当于文字辨识。 同年,我用这些观念,设计了一台具有简单概念的“中文计算机”。由于我无力 生产,便与宏碁公司合作,只提供了字码输入及字形输出的功能,另外由宏碁公司设 计了中文操作系统及中文程序语言。 一九七九年九月,我和宏碁公司共同发表了“天龙中文计算机”,打破了计算机 不能使用中文的迷信。 此后,我继续从事汉字的研究,达二十年之久。一九八九年八月,我曾与深圳科 技工业园合作,完成“汉字大字库”,国家科学院在北京友谊宾馆,举行技术审核及评 估。最后在十余位第一流科学家的审核下,评定为“超过世界水平”。 一九九○年六月,我发展的“聚珍整合系统”,又在国家科学院的核估下,被评 为“超过世界水平”的软件技术。 一九九一年我回到台湾,为了抗衡微软的文化侵略,我坚决认定微软窗口应该把 文字接口公开,令从事中文软件的业者,保有一线生机。但微软悍然拒绝,我又寻求 台湾信息策进会合作,协助他们在窗口3.0上,建立了一个中文系统,其功能远胜 微软之中文窗口。 微软立刻拉拢台湾软件界,合纵连横。一九九二年,台湾仅有的十余家软件公司, 不是成为微软的代销业者,就是被蚕食鲸吞。最后微软推出窗口3.1,并取消了资 策会版本更新的权利,至此大势已去,事到如今,台湾的中文软件界已告全军覆没
我经过这次惨败的打击,便宣布退隐归山,专心一致研发汉字的基因工程。但惜 曲高和寡,我曾前后在台湾大学及报章杂志上发表“概念网络”理念,却得不到任何 回响。于是我又转换策略,将汉字基因理论运用在三维动画处理上,打算将中华文化 的精髓转化为人人可以接受的动画产品。 一九九九年二月,我们完成了由编剧到动画制作的应用系统。又在短短三个月中, 以四个工作人员,完成了台湾大学中国文学系所委制的九十分钟三维动画,是根据《周 礼》制作的“士昏礼”,又是国人突破性的创举。 同时,我们接到了香港“文化传信集团有限公司”的邀请,赴港合作,谋求利用 最新科技,将文化事业发扬光大。 这次回到祖国发表“汉字基因工程”,正值祖国改革开放成果展现,又怡是微软 大军临境,进一步推广其维纳斯计划之际。此中意义之大,无与伦比,我今年已六十 有三,虽然屡战屡败,但仍坚信汉字基因是唯一能够维护我中华文化之科技至宝
我经过这次惨败的打击,便宣布退隐归山,专心一致研发汉字的基因工程。但惜 曲高和寡,我曾前后在台湾大学及报章杂志上发表“概念网络”理念,却得不到任何 回响。于是我又转换策略,将汉字基因理论运用在三维动画处理上,打算将中华文化 的精髓转化为人人可以接受的动画产品。 一九九九年二月,我们完成了由编剧到动画制作的应用系统。又在短短三个月中, 以四个工作人员,完成了台湾大学中国文学系所委制的九十分钟三维动画,是根据《周 礼》制作的“士昏礼”,又是国人突破性的创举。 同时,我们接到了香港“文化传信集团有限公司”的邀请,赴港合作,谋求利用 最新科技,将文化事业发扬光大。 这次回到祖国发表“汉字基因工程”,正值祖国改革开放成果展现,又恰是微软 大军临境,进一步推广其维纳斯计划之际。此中意义之大,无与伦比,我今年已六十 有三,虽然屡战屡败,但仍坚信汉字基因是唯一能够维护我中华文化之科技至宝
二、 理念基础 在当今信息时代,微型计算机(Mi croComputer)俨然成为时代的代言人,无 无时不见其踪影。然平心而论,微型计算机是在一九七一年,美国英特尔公司受日本 人的委托,设计了一颗计算芯片。由于速度未达原定规格,致遭退货,英特尔公司为 了弥补损失,只好以之作为一种控制器,孰料竟意外演变成后来的微电脑。 微电脑的优点,是执行的结果精确,处理速度快捷,可以节省大量的人力、物力。 更兼以能利用软件设计以增益其功能,对于当今变化无常,而又需求殷切的各种服务 业,简直是大旱之逢甘霖。在商业推波助澜下,一时大行其道,人们遂误以为现今的 计算机技术,就是最终的信息解决方案。 其实,人生从初试啼声至意识渐明,无非是各种信息之交汇所致。因此,人脑可 说是一个自然形成的“信息网络”。 释文:“信”一前缀:人,有意识的高等动物。 字身:言,所说的话。 *人遵守所说的话。 “息”一字身:自,鼻子。 前缀:心,内感器官。 *鼻主动,心宜静。动静变化。 定义:确定的变化。 释文:“网”一前缀:纟,细丝。 字身:罔,交错难明。 +丝线结成之工具。 “络”一前缀:乡,细丝。 字身:各,各别。 各别之丝联成一体。 定义:各种关系所组合成的、交错通联的结构。 大自然进化数十亿年,万事万物井然有序,其法则自必效率最高。从理论上来说, 顺遂自然,是最简单易行的法门。 举例而言,猫、狗、鸟、鱼都各有辨识能力,足证辨识必非高深莫测的“高科技”。 再看作图、计算等能力,不仅猫、狗无此能力,连人类也必须经过长时期的学习、训 练,否则无法胜任。 但计算机发展至今,辨识迄今难如登天,而其绘图、计算之功能却轻而易举。在 我们盲目讴歌计算机“高科技”的同时,是不是该平心静气地反思,究竟我们走的方 向是对是错?计算机原名“计算器”,是以数学运算为主要功能。数学的特性是精准明 确,从技术来说,这种特性是基于工业发达后,人们因从事物质生产,迫切需要的一 种规范。根据这种诉求,我们不难想见,无论微电脑的功能发展到何种地步,要想以 之解决人生的各种问题,可以说是缘木求鱼。 人生的问题究竟是什么?从根本上来看,是每一个体分处不同的时空,遭逢的机 遇不一。人封闭在个体中,与外界唯一的沟通接口是各种感官,而处理感官信息的功 能是“思维”。因之,我们可以明确地说,人的问题完全存在于思维的过程中。 释文:“思”一字身:田,可耕种的土地
二、 理念基础 在当今信息时代,微型计算机(MicroComputer)俨然成为时代的代言人,无 无时不见其踪影。然平心而论,微型计算机是在一九七一年,美国英特尔公司受日本 人的委托,设计了一颗计算芯片。由于速度未达原定规格,致遭退货,英特尔公司为 了弥补损失,只好以之作为一种控制器,孰料竟意外演变成后来的微电脑。 微电脑的优点,是执行的结果精确,处理速度快捷,可以节省大量的人力、物力。 更兼以能利用软件设计以增益其功能,对于当今变化无常,而又需求殷切的各种服务 业,简直是大旱之逢甘霖。在商业推波助澜下,一时大行其道,人们遂误以为现今的 计算机技术,就是最终的信息解决方案。 其实,人生从初试啼声至意识渐明,无非是各种信息之交汇所致。因此,人脑可 说是一个自然形成的“信息网络”。 释文:“信”-前缀:人,有意识的高等动物。 字身:言,所说的话。 *人遵守所说的话。 “息”-字身:自,鼻子。 前缀:心,内感器官。 *鼻主动,心宜静。动静变化。 定义:确定的变化。 释文:“网”-前缀:纟,细丝。 字身:罔,交错难明。 *丝线结成之工具。 “络”-前缀:纟,细丝。 字身:各,各别。 各别之丝联成一体。 定义:各种关系所组合成的、交错通联的结构。 大自然进化数十亿年,万事万物井然有序,其法则自必效率最高。从理论上来说, 顺遂自然,是最简单易行的法门。 举例而言,猫、狗、鸟、鱼都各有辨识能力,足证辨识必非高深莫测的“高科技”。 再看作图、计算等能力,不仅猫、狗无此能力,连人类也必须经过长时期的学习、训 练,否则无法胜任。 但计算机发展至今,辨识迄今难如登天,而其绘图、计算之功能却轻而易举。在 我们盲目讴歌计算机“高科技”的同时,是不是该平心静气地反思,究竟我们走的方 向是对是错?计算机原名“计算器”,是以数学运算为主要功能。数学的特性是精准明 确,从技术来说,这种特性是基于工业发达后,人们因从事物质生产,迫切需要的一 种规范。根据这种诉求,我们不难想见,无论微电脑的功能发展到何种地步,要想以 之解决人生的各种问题,可以说是缘木求鱼。 人生的问题究竟是什么?从根本上来看,是每一个体分处不同的时空,遭逢的机 遇不一。人封闭在个体中,与外界唯一的沟通接口是各种感官,而处理感官信息的功 能是“思维”。因之,我们可以明确地说,人的问题完全存在于思维的过程中。 释文:“思”-字身:田,可耕种的土地
前缀:心,内感器官,有情绪及 认知。 大耕耘于心,用大脑想。 释文:“维”一前缀:兰,绳索。 字身:佳,群集,聚。 大聚之绳,贯通网络的总绳。 定义:各种经过大脑、如同网络总纲的头绪。 思维是人类大脑最重要的功能,借着记忆中网络般的接口,逐一与感官所传达的 信息连接起来。网络是一种纵横交连在某一系统间、可以通达各个接口的复杂结构。 人类在长久进化过程中,学会了以某一个独特的符号代替某一区段网络,以之与他人 沟通。而代表这种概略区段的符号,就被称为“概念”(如“城市”相当于人口、交通 汇聚的概念)。 释文:“概”一前缀:木,材料。 字身:既,食毕,完成。 火一种推平斗斛中米麦的短木棒 ,因不够精准,故象征接近、 大约。 “念”一字身:今,当前。 前缀:心,人之内感器官。 *此时此刻心上所思,人对事物 审视之所知所得。 定义:人的经验错综复杂,为了便于彼此间的沟 通,特以约定的符号讯息,代表相关的、 概略性的认知者。 概念系指概略的念头,是人将繁复的经验,用概括简略的表达方式,以便于与他 人沟通者。每一个人都生存在独一的时空中,在变化无穷的环境刺激下,个人经验之 排列组合机率,完全没有与他人重复的可能。 因此,最理想的,能解决人类各种问题的方案,便是用概念设计出一种协助人类 思维的工具。由于电子技术的进步,显然可以在微电脑现有的结构上,重新规划,设 计出一种完全符合人性的拟人计算机
前缀:心,内感器官,有情绪及 认知。 *耕耘于心,用大脑想。 释文:“维”-前缀:纟,绳索。 字身:隹,群集,聚。 *聚之绳,贯通网络的总绳。 定义:各种经过大脑、如同网络总纲的头绪。 思维是人类大脑最重要的功能,借着记忆中网络般的接口,逐一与感官所传达的 信息连接起来。网络是一种纵横交连在某一系统间、可以通达各个接口的复杂结构。 人类在长久进化过程中,学会了以某一个独特的符号代替某一区段网络,以之与他人 沟通。而代表这种概略区段的符号,就被称为“概念”(如“城市”相当于人口、交通 汇聚的概念)。 释文:“概”-前缀:木,材料。 字身:既,食毕,完成。 *一种推平斗斛中米麦的短木棒 ,因不够精准,故象征接近、 大约。 “念”-字身:今,当前。 前缀:心,人之内感器官。 *此时此刻心上所思,人对事物 审视之所知所得。 定义:人的经验错综复杂,为了便于彼此间的沟 通,特以约定的符号讯息,代表相关的、 概略性的认知者。 概念系指概略的念头,是人将繁复的经验,用概括简略的表达方式,以便于与他 人沟通者。每一个人都生存在独一的时空中,在变化无穷的环境刺激下,个人经验之 排列组合机率,完全没有与他人重复的可能。 因此,最理想的,能解决人类各种问题的方案,便是用概念设计出一种协助人类 思维的工具。由于电子技术的进步,显然可以在微电脑现有的结构上,重新规划,设 计出一种完全符合人性的拟人计算机
三、 汉字基因 值今科学时代,理论实验相辅相成,缺一不可。牛顿的三大力学定律是物理科 的基础;门罗列夫的元素周期表是化学的根本;而DNA则解开了生命的奥秘。正是 这些沉潜在表象下的根本因素,使得知识日渐昌明,协助人类脱离愚迷,步向未来。 科学是一种治学的方法,以分析的手段,力求寻找事物的根本因素。再以实验, 将各种已知的根本因素加以组合,从而印证分析假设的正确性。直到这些认知都正确 无误后,人类站在科学的认知上,始能得到智能。 我们已知人类思维建立在概念形式上,概念又仅具一种含糊的代表性,代表着人 生各种不同的经验。然而,这种说法只是一种概述,因为究竟概念是些什么?有哪些 功能?其根本的因素又是什么?到今天还没有人知道。 基于科学的态度,我们先分析汉字概念,发现有“字码、字序、字形、字辨、字 音、字义”六大功能,在此先将之假定为“汉字基因”。 进一步分析,我们先将各种功能假设是概念的根本因素,再用计算机软硬件加以 测试。唯有在全部假设的因素都能还原成为文字概念,且能根据这些因素,达到理解 认知的目的,前述的“汉字基因”才能成立。 同时,在求证过程中,是以满足一个普通人的认知水准为最低条件。其中有反应 速度、记忆容量以及理解程度三种指针。反应速度越快越好;记忆容量越小越好;而 理解程度越高越好。 此中以字义理解一项争议较大,因为字义的应用无垠无涯,而人的智力有限。如 果不能以有限表达无限,则将失去理解的意义;再若理解的深度增减,也应有一定的 分际。为此,我们在《辞海》中,选定7OO0个有意义(也就是不考虑地名、山名 及事物名称用字)的字,每字采用32位的“仓颉内码”,且各赋与“体用因果”四键、 各8位的结构定义。故相当于每字占64位(即8字符),因此,概念结构共占56K B。 下面是汉字基因的六大项目及其说明。 1,字码:共二十五码,分占标准键盘之字符键供文字输入用。 本项字码即为“仓颉输入法”,经 台、港等地试用达二十年,已经成为 中文输入法之主流,足证此二十五码 为汉字输入的基因。 测试数据:输入反应速度最高125字/分 记忆容量及理解程度不在测试范围。 2,字序:仓颉输入法有二十四个“汉字字母” 供文字排序用。 已有汉字字典,采本项字母字序, 证明应用效率与拼音字母相等。 测试数据:查字典反应速度与英文字典同。 记忆容量及理解程度不在测试范围。 3,字形:基本向量笔形9个,字根64个,供 字库组字用
三、 汉字基因 值今科学时代,理论实验相辅相成,缺一不可。牛顿的三大力学定律是物理科 的基础;门罗列夫的元素周期表是化学的根本;而DNA则解开了生命的奥秘。正是 这些沉潜在表象下的根本因素,使得知识日渐昌明,协助人类脱离愚迷,步向未来。 科学是一种治学的方法,以分析的手段,力求寻找事物的根本因素。再以实验, 将各种已知的根本因素加以组合,从而印证分析假设的正确性。直到这些认知都正确 无误后,人类站在科学的认知上,始能得到智能。 我们已知人类思维建立在概念形式上,概念又仅具一种含糊的代表性,代表着人 生各种不同的经验。然而,这种说法只是一种概述,因为究竟概念是些什么?有哪些 功能?其根本的因素又是什么?到今天还没有人知道。 基于科学的态度,我们先分析汉字概念,发现有“字码、字序、字形、字辨、字 音、字义”六大功能,在此先将之假定为“汉字基因”。 进一步分析,我们先将各种功能假设是概念的根本因素,再用计算机软硬件加以 测试。唯有在全部假设的因素都能还原成为文字概念,且能根据这些因素,达到理解 认知的目的,前述的“汉字基因”才能成立。 同时,在求证过程中,是以满足一个普通人的认知水准为最低条件。其中有反应 速度、记忆容量以及理解程度三种指针。反应速度越快越好;记忆容量越小越好;而 理解程度越高越好。 此中以字义理解一项争议较大,因为字义的应用无垠无涯,而人的智力有限。如 果不能以有限表达无限,则将失去理解的意义;再若理解的深度增减,也应有一定的 分际。为此,我们在《辞海》中,选定7000个有意义(也就是不考虑地名、山名 及事物名称用字)的字,每字采用32位的“仓颉内码”,且各赋与“体用因果”四键、 各8位的结构定义。故相当于每字占64位(即8字符),因此,概念结构共占56K B。 下面是汉字基因的六大项目及其说明。 1,字码:共二十五码,分占标准键盘之字符键供文字输入用。 本项字码即为“仓颉输入法”,经 台、港等地试用达二十年,已经成为 中文输入法之主流,足证此二十五码 为汉字输入的基因。 测试数据:输入反应速度最高125字/分 记忆容量及理解程度不在测试范围。 2,字序:仓颉输入法有二十四个“汉字字母” 供文字排序用。 已有汉字字典,采本项字母字序, 证明应用效率与拼音字母相等。 测试数据:查字典反应速度与英文字典同。 记忆容量及理解程度不在测试范围。 3,字形:基本向量笔形9个,字根64个,供 字库组字用