1949年以来中国地名生僻字考释与研究项目简介及赞助方式
1项目背景
1.1地名生僻字编码情况
2001年12月,《信息技术信息交换用汉字编码字符集第八辅助集(SJ/T11239-2001)》(下称《八辅》)发布,其中包含了2497个单字,均为中国地名用字。IRG大陆源(G源)曾试图提交其中的未编码字,但最终因为没有合适的证据而撤回了绝大部分。直至Unicode标准13.0版本,仍有1143个八辅字未被编码,其中又有约600字没有找到合适的提交证据;此外还有约300个未编码地名用字未被《八辅》收录。一个字符未被编码,意味着绝大多数人不知道如何用电脑显示这些字,更不用说输入或者相互传输这些字。
在我们享受着信息时代无限便利的同时,需要使用这些字的人不得不承受着信息时代带来的诸多不便。如今,距《八辅》发布已过去19年,距第一次地名普查也已然过去近40年,而第二次地名普查的结果也不尽人意——虽然技术进步了,但是人们避免麻烦的愿望好像也更强烈,很多二普志书避生僻字而不录,完备程度远不如一普志书。如果不能尽快找到合适的证据提交这些生僻字,待资料继续散佚、文化继续散失、不满继续积累,损失不可估量。
1.2地名生僻字研究概况
“地名用字”研究在学术界本就属于冷门,而地名生僻字分散用于全国各地的地名中,涉及多个差异极大的方言区片;且其中不仅有狭义的“汉字”,还有壮字、侗字、土家字和藏语译字等。考证其含义及演变往往非常费时、费力,而且需要很广的知识面和非常敏锐的“嗅觉”。另外,很容易理解,此类研究必须以一个特殊的、收录广泛的资料库作为基础。因此,这一领域很少有人涉及,现有的研究也往往因为资料搜集不全、作者不够认真等因素达不到可以接受的水平。现有的专著仅有《浙江地名疑难字研究》达到了较高水平。
2项目简介
2.1项目起源
2017年,因个人兴趣和机缘巧合,我开始搜集未编码地名字证据,后来由简单的搜集和提交工作转兼对疑难字音义及演变进行考证。在工作中有很多事情让我感触良多,让我觉得自己应该坚持下去,真正做一些事情。
所以之后我休学一年,专门搜集了一批全国地名志/录/资料汇编等资料(以下简称地名志),整理了其中的未编码地名用字,主持编写了《八辅字情调查表》第一版。这个表是我这一年工作的主要成果,列出了我之前搜集的所有相关信息,可以说是到现在为止公开的资料里对全国未编码地名生僻字信息搜集最全的。但现在来看,这个字表的不足之处非常多也非常明显,我希望能编写出一部更加完备、翔实,考证精严的地名生僻字字典,这不论是对地名生僻字编码,还是对相关研究来说都大有裨益。
一直以来,我试图同很多机构合作研究,但最后的结果总不尽如人意。可以说,前段时间我的心情非常低落——但是仔细想想,其它尚不论,我至少得给自己一个交代。所以我整理心情,归纳了经验和研究思路,决定开始完全独立进行研究,只接受赞助,不对任何机构直接负责。
2.2已有成果
2.2.1资料库
从2017年以来,我一共整理得1,800册以上一普地名志(电子版为主),同时也一直在自费购入无电子版的实体书籍,初步建成了一个小资料库。
其中,电子版资料除地名志外,另有众多经典或稀见的俗字学、汉语方言学、少数民族语言学专著及新旧方志等;实体资料包括稀见地名资料、国内外汉语言文字学及汉语方言学工具书、国内外汉语言文字学及汉语方言学研究专著等。其中一些资料久已绝版,即使国图也无藏本。
2.2.2编码提案
我通过委员会(UTC)源及英国(UK)源向IRG提交了400个以上书证,其中一部分已在IRGWS2017提交,WS2021应该还会提交一批。CJKUI扩展G区含《八辅》71字,而WS2017(即未来的扩展H区)提交了280个八辅字,约为之前的4倍,即在一定程度上受我之前工作的影响。
2.2.3研究情况
经过不断学习、归纳和总结,我已经掌握了一些地名生僻字的考证方法和演变规律,还会继续修正并逐渐形成理论体系。接下来的主要工作即是以八辅字情调查所获得的成果为基础,继续广泛搜集资料,逐字归纳总结,编写一部包含全国各地地名生僻字的字典。我已经尝试编写了几个条目,字典的体例已基本确定。
3项目目标
第一,继续搜集稀见地名志及国内外相关资料,尤其注重搜集无后续的、有研究价值的稿本及印数极少且公私图书馆无藏的书籍,丰富资料库内容。
第二,建立中国地名志及地名字、辞典信息数据库,包括编者、出版时间、装帧、页数、印数、对应现政区、索引情况等信息,视情况收录电子版全文或实体书。相关信息应收尽收。
第三,力争5年左右编成《1949年后中国地名生僻字的考释与研究》第一版并出版(书名可能会调整),收录地名生僻字的音、义、代表性用例、编码信息及地名生僻字考释与研究方法等内容。其所释未编码字(截止Unicode标准13.0版本)应不少于400字,所释单字总字数应不少于800字。
第四,建立1949年后在中国地名中使用过的生僻字的音、义、用例及编码信息数据库,有必要的附考证。
第五,以最快的速度通过IRG大陆源(G源)、UTC源及UK源提交有编码价值的生僻字,尽快彻底解决无法在电子设备上使用未编码地名用字进行广泛文本传输的问题。
第六,和同时期受到国家资助的其它项目进行横向对比,如对比考证深度、收字广度等。
4版权声明
4.1《八辅字情调查表》第一版版权声明
《八辅字情调查表》第一版所有权利归作者,即王谢杨、@KushimJiang、@湉沨所有。
我们允许字海网、汉典网、四川外国语大学地名研究中心、江西地名研究公众号及中华字库项目组附来源全文或部分引用《八辅字情调查表》第一版内容,在全文引用时对《八辅字情调查表》第一版的排版进行修改,在部分引用时做适当修改。
我们欢迎其他机构或个人以研究为目的适量引用《八辅字情调查表》第一版内容,但必须说明来源。
在以上声明范围外使用《八辅字情调查表》第一版的行为均需征得全部作者的同意。对构成侵权并造成危害的转载、引用等行为,我们将不惜一切代价追究其法律责任。
4.2本专栏文章版权声明
本专栏文章所有权利归文章发表者所有。
我们允许字海网、汉典网、四川外国语大学地名研究中心、江西地名研究公众号及中华字库项目组附来源全文或部分引用本专栏所有文章,在全文或部分引用时做适当修改。
我们欢迎其他机构或个人以研究为目的适量引用本专栏文章内容,但必须说明来源。
在以上声明范围外使用本专栏文章的行为均需征得文章作者的同意。对构成侵权并造成危害的转载、引用等行为,我们将不惜一切代价追究其法律责任。
4.31949年以来中国地名生僻字考释与研究项目成果版权声明
本项目最终成果包括“中国地名志及地名字、辞典信息数据库”、“生僻地名用字音、义、用例及编码信息数据库”及最后出版的专著。此三项成果所有权利归编录者所有。
其中,“生僻地名用字音、义、用例及编码信息数据库”将分为基础信息和全库两部分。基础信息部分将通过本专栏分批向公众全部公开,包括生僻地名用字的音、义、编码信息及一个代表性用例(包括用例地名的性质、使用最后时间等信息);全库需要付费获得,包括生僻地名用字的音、义、编码信息、全部代表性用例、详细考证及参考文献详细页数等信息,并且仅限购买机构或个人参考使用。