【汉字讲座】(19)汉字的数量究竟有多少?

汉字产生以后,走过了一个四五千年的不间断的发展演变历程。在这个漫长的历史过程中,历朝历代产生的新字不计其数。时至今日,汉字的数量究竟有多少?或说两三万,或说三四万,或说四五万,甚至有说七八万、十来万的,竟然没有人那怕能大致地说清楚。那么,汉字的数量真的就没有一个相对确定的量级吗?

让我们先来看看历代字书(及韵书)的收字情况:

年代

(编著时间)

篇名

编者

字数

备注

[商]

(公元前1600~前1046年)

甲骨文

发现单字4378个。已识2000余字,公认1000余字。

《甲骨文字编》。

台湾中央研究院历史语言研究所李宗焜,2012年。

[西周]

周宣王期间(前827~前781)

大篆

《史籀篇》(十五篇)

太史籀

不详

估计在1500~3000字之间。

[秦]

(公元前221年)

小篆

《仓颉篇》等三篇

李斯等作

3,300余字

李斯作《仓颉篇》,赵高作《博学篇》,胡毋敬作《爰历篇》。

[西汉]

(公元前53~公元18年)

《训纂编》

杨雄编著

5,340字

已佚。

[西汉]

(前48~前33)

《急就篇》

史游编著

元帝时任黄门令。

2,144字

末128字为汉以后人所加。

[东汉]

(公元100年)

《说文解字》

许慎编著

9,353字

重文(异体字)1163字,共10,516字。

[西晋]

(公元514年)

《字林》

吕忱编著

12,824字

已佚。

[南朝·梁]

(公元534年)

《玉篇》

顾野王编著

16,917字

后增补至22561字。

[北宋]

(1008年)

《广韵》

陈彭年等编著

26,194字

[北宋]

(1039年)

《集韵》

丁度等编著

53,525字

[北宋]

(1066年)

《类篇》

司马光等编著

31,319字

[明]

(1615年)

《字汇》

梅膺祚等编著

33,179字

[明]

(崇祯末年)

《正字通》

张自烈著

33,549字

[清]

(1716年)

《康熙字典》

张玉书等编著

47,043字

[民国]

(1915年)

《中华大字典》

欧阳博存主编

48,000余字

当代

(1971年)

《中文大辞典》

张其昀主编

49,888余字

当代

(1993年)

《汉语大字典》

徐中舒主编

56,000余字

当代

(1994年)

《中华字海》

冷玉龙主编

85,000余字

当代

(2004年)

《异体字字典》

台湾教育研究院编

106,230字

(其中正字29892个,异体字76338个)

台湾网络版第5版。

可是,汉字的数量,真的有这么多吗?

其实,当我们明白了汉字造字的原理与方法,清楚了汉字发展演变的来龙去脉,对于汉字的数量的问题,就会有一个基本的判断。

在《汉字的造字理念与造字原则》与《汉字造字之本——“六书”》中我们谈到:汉字的具体构字方法是“六书”。也就是说,真正的汉字,得符合“六书”才算数。一个人随便写一个“字”,其构造不符合“六书”的要求,使人无从解读,那就不能算是一个真正的汉字。而历史上,这样的“字”很多,有些是俗字,有些是错别字。所以,“有效汉字”的数量,其实是有限量的。

这里所说的“有效汉字”,主体是指符合六书的通用汉字(很多字后世发生了讹变,变得不符合六书了),也包括后世历代沿用下来的俗字。

下面,我们再来看看有关中国古籍的用字统计,看能不能找到确定汉字数量的线索。

由上表可以看出,我国历代各类著作所用不重复字数很少有超过4000的,大多介于2000~4000之间,说明我国历代社会常用字有一个恒量,即3000字左右。我国古代童蒙识字教材同时并用时的总字数,恰在3000~4000上下,说明当时围绕汉字教育所进行的字频研究和常用字研究,已经达到了很高的水平。

有人曾统计过,十三经(《易》《书》《诗》《周礼》《仪礼》《礼记》《春秋左传》《春秋公羊传》《春秋谷梁传》《论语》《孝经》《尔雅》《孟子》)中不相同的单字数为6544字。因此,实际上古人日常使用的汉字数不过六七千上下而已。

下面,我们再来分析分析大陆有关单位所作的汉字使用频度统计资料。

现代语料字频统计(清华大学):

统计字数:6,763(GB2313-80字符集)。

使用语料总字数:86,405,823字。

古籍字频统计(北京书同文数字化技术有限公司,2004年):

语料来源:

《四库全书》用字:总字数:698,076,596字:不重复单字:29,081字。

《四部丛刊》用字:总字数: 90,616,538字;不重复单字:27,606字。

二者合并:总字数:788,693,134字,不重复单字:30,135字。

由现代语料字频统计结果可看出:

前1,000个常用字,对语料的覆盖率达到91.9%以上;

前2,500个常用字,对语料的覆盖率达到99.2%以上;

前3,500个常用字,对语料的覆盖率达到99.8%以上;

前4,500个常用字,对语料的覆盖率达到99.9%以上;

以后字数再增加,语料覆盖率的增加就很少了。

这与我国古时历代社会常用字的数量基本一致。

而对古籍字频的统计,虽然统计字数扩大了将近5倍,达到3万多字,但字频与现代汉语相比,差别并不很大:

前1,000个常用字,覆盖率达到80.9%以上;

前2,000个常用字,覆盖率达到91.6%以上;

前4,000个常用字,覆盖率达到97.5%以上;

前6,000字, 覆盖率达到99.1%以上;

前8,000字, 覆盖率达到99.6%以上;

前13,000字, 覆盖率达到99.9%以上;

以后字数再增加,语料覆盖率的增加就很少了。

如果抛除古籍中大量的异体字、俗字,则古今语料汉字的使用频度基本一致。

1988年,大陆发布的收录3500字的《现代汉语常用字表》(常用字2500个、次常用字1000个)、以及收录7000的《现代汉语通用字表》(含《现代汉语常用字表》中的3500字),就是依据与上述汉字字频统计相关的资料制定的。

2013年,大陆又发布了《通用规范汉字表》,将收字数量提高到8105(其中一级字仍为3500)。

香港城市大学研究中心的Benjamin K.Tsou教授关于汉字信息熵的研究表明:随着汉字容量增大到一定数量级,信息熵的增加趋缓;当汉字增加到12,370个以后,不再使信息熵有明显的增加。据此,有关专家认为:汉字的容量极限为12,366个。

所谓信息熵,是指信息中排除了冗余后的平均信息量。信息熵越高,意味着能传输的信息越多;信息熵越低,意味着能传输的信息越少。

▲由以上介绍可知,有效汉字的数量,也就在13,000个左右。

对于通常的出版印刷、信息处理、姓氏人名、地名、科技术语等方面的用字需要,8000通用汉字基本上都能满足。

对于专业人员而言,掌握4000~4500个汉字足矣。

而对于普通人士,掌握2500~3500个汉字,则基本上就能满足正常的工作与阅读需要。

所以,2007年(民国民国九十六年)台湾《国语小字典》第二版,收字4,305个。

1997年(民国民国八十六年)台湾教育部的《重编国语辞典修订本》,收字11,930个;另有异体字1,848个,共计13,778字。

2011年大陆第十一版《新华字典》,收字11,200余个。

所以,那些所谓的汉字的数量有几万个,甚至是上十万个的说法,是不能成立的。因为,那其中的绝大部分,或是异体字,或是俗字,或是错别字,还有大量的死字(历史上曾经出现过而后世废置不用的字)。

(0)

相关推荐