【汉字讲座】(19)汉字的数量究竟有多少?
汉字产生以后,走过了一个四五千年的不间断的发展演变历程。在这个漫长的历史过程中,历朝历代产生的新字不计其数。时至今日,汉字的数量究竟有多少?或说两三万,或说三四万,或说四五万,甚至有说七八万、十来万的,竟然没有人那怕能大致地说清楚。那么,汉字的数量真的就没有一个相对确定的量级吗?
让我们先来看看历代字书(及韵书)的收字情况:
年代 (编著时间) |
篇名 |
编者 |
字数 |
备注 |
[商] (公元前1600~前1046年) |
甲骨文 |
无 |
发现单字4378个。已识2000余字,公认1000余字。 |
《甲骨文字编》。 台湾中央研究院历史语言研究所李宗焜,2012年。 |
[西周] 周宣王期间(前827~前781) |
大篆 《史籀篇》(十五篇) |
太史籀 |
不详 |
估计在1500~3000字之间。 |
[秦] (公元前221年) |
小篆 《仓颉篇》等三篇 |
李斯等作 |
3,300余字 |
李斯作《仓颉篇》,赵高作《博学篇》,胡毋敬作《爰历篇》。 |
[西汉] (公元前53~公元18年) |
《训纂编》 |
杨雄编著 |
5,340字 |
已佚。 |
[西汉] (前48~前33) |
《急就篇》 |
史游编著 元帝时任黄门令。 |
2,144字 |
末128字为汉以后人所加。 |
[东汉] (公元100年) |
《说文解字》 |
许慎编著 |
9,353字 |
重文(异体字)1163字,共10,516字。 |
[西晋] (公元514年) |
《字林》 |
吕忱编著 |
12,824字 |
已佚。 |
[南朝·梁] (公元534年) |
《玉篇》 |
顾野王编著 |
16,917字 |
后增补至22561字。 |
[北宋] (1008年) |
《广韵》 |
陈彭年等编著 |
26,194字 |
|
[北宋] (1039年) |
《集韵》 |
丁度等编著 |
53,525字 |
|
[北宋] (1066年) |
《类篇》 |
司马光等编著 |
31,319字 |
|
[明] (1615年) |
《字汇》 |
梅膺祚等编著 |
33,179字 |
|
[明] (崇祯末年) |
《正字通》 |
张自烈著 |
33,549字 |
|
[清] (1716年) |
《康熙字典》 |
张玉书等编著 |
47,043字 |
|
[民国] (1915年) |
《中华大字典》 |
欧阳博存主编 |
48,000余字 |
|
当代 (1971年) |
《中文大辞典》 |
张其昀主编 |
49,888余字 |
|
当代 (1993年) |
《汉语大字典》 |
徐中舒主编 |
56,000余字 |
|
当代 (1994年) |
《中华字海》 |
冷玉龙主编 |
85,000余字 |
|
当代 (2004年) |
《异体字字典》 |
台湾教育研究院编 |
106,230字 (其中正字29892个,异体字76338个) |
台湾网络版第5版。 |
可是,汉字的数量,真的有这么多吗?
其实,当我们明白了汉字造字的原理与方法,清楚了汉字发展演变的来龙去脉,对于汉字的数量的问题,就会有一个基本的判断。
在《汉字的造字理念与造字原则》与《汉字造字之本——“六书”》中我们谈到:汉字的具体构字方法是“六书”。也就是说,真正的汉字,得符合“六书”才算数。一个人随便写一个“字”,其构造不符合“六书”的要求,使人无从解读,那就不能算是一个真正的汉字。而历史上,这样的“字”很多,有些是俗字,有些是错别字。所以,“有效汉字”的数量,其实是有限量的。
这里所说的“有效汉字”,主体是指符合六书的通用汉字(很多字后世发生了讹变,变得不符合六书了),也包括后世历代沿用下来的俗字。
下面,我们再来看看有关中国古籍的用字统计,看能不能找到确定汉字数量的线索。
由上表可以看出,我国历代各类著作所用不重复字数很少有超过4000的,大多介于2000~4000之间,说明我国历代社会常用字有一个恒量,即3000字左右。我国古代童蒙识字教材同时并用时的总字数,恰在3000~4000上下,说明当时围绕汉字教育所进行的字频研究和常用字研究,已经达到了很高的水平。
有人曾统计过,十三经(《易》《书》《诗》《周礼》《仪礼》《礼记》《春秋左传》《春秋公羊传》《春秋谷梁传》《论语》《孝经》《尔雅》《孟子》)中不相同的单字数为6544字。因此,实际上古人日常使用的汉字数不过六七千上下而已。
下面,我们再来分析分析大陆有关单位所作的汉字使用频度统计资料。
现代语料字频统计(清华大学):
统计字数:6,763(GB2313-80字符集)。
使用语料总字数:86,405,823字。
古籍字频统计(北京书同文数字化技术有限公司,2004年):
语料来源:
《四库全书》用字:总字数:698,076,596字:不重复单字:29,081字。
《四部丛刊》用字:总字数: 90,616,538字;不重复单字:27,606字。
二者合并:总字数:788,693,134字,不重复单字:30,135字。
由现代语料字频统计结果可看出:
前1,000个常用字,对语料的覆盖率达到91.9%以上;
前2,500个常用字,对语料的覆盖率达到99.2%以上;
前3,500个常用字,对语料的覆盖率达到99.8%以上;
前4,500个常用字,对语料的覆盖率达到99.9%以上;
以后字数再增加,语料覆盖率的增加就很少了。
这与我国古时历代社会常用字的数量基本一致。
而对古籍字频的统计,虽然统计字数扩大了将近5倍,达到3万多字,但字频与现代汉语相比,差别并不很大:
前1,000个常用字,覆盖率达到80.9%以上;
前2,000个常用字,覆盖率达到91.6%以上;
前4,000个常用字,覆盖率达到97.5%以上;
前6,000字, 覆盖率达到99.1%以上;
前8,000字, 覆盖率达到99.6%以上;
前13,000字, 覆盖率达到99.9%以上;
以后字数再增加,语料覆盖率的增加就很少了。
如果抛除古籍中大量的异体字、俗字,则古今语料汉字的使用频度基本一致。
1988年,大陆发布的收录3500字的《现代汉语常用字表》(常用字2500个、次常用字1000个)、以及收录7000的《现代汉语通用字表》(含《现代汉语常用字表》中的3500字),就是依据与上述汉字字频统计相关的资料制定的。
2013年,大陆又发布了《通用规范汉字表》,将收字数量提高到8105(其中一级字仍为3500)。
香港城市大学研究中心的Benjamin K.Tsou教授关于汉字信息熵的研究表明:随着汉字容量增大到一定数量级,信息熵的增加趋缓;当汉字增加到12,370个以后,不再使信息熵有明显的增加。据此,有关专家认为:汉字的容量极限为12,366个。
所谓信息熵,是指信息中排除了冗余后的平均信息量。信息熵越高,意味着能传输的信息越多;信息熵越低,意味着能传输的信息越少。
▲由以上介绍可知,有效汉字的数量,也就在13,000个左右。
对于通常的出版印刷、信息处理、姓氏人名、地名、科技术语等方面的用字需要,8000通用汉字基本上都能满足。
对于专业人员而言,掌握4000~4500个汉字足矣。
而对于普通人士,掌握2500~3500个汉字,则基本上就能满足正常的工作与阅读需要。
所以,2007年(民国民国九十六年)台湾《国语小字典》第二版,收字4,305个。
1997年(民国民国八十六年)台湾教育部的《重编国语辞典修订本》,收字11,930个;另有异体字1,848个,共计13,778字。
2011年大陆第十一版《新华字典》,收字11,200余个。
所以,那些所谓的汉字的数量有几万个,甚至是上十万个的说法,是不能成立的。因为,那其中的绝大部分,或是异体字,或是俗字,或是错别字,还有大量的死字(历史上曾经出现过而后世废置不用的字)。