史上最全姓氏分布地图

过去我曾经问过一个问题:为什么广东特色大姓较多以流音 [l-] 开头?当时有人说应该给出数据来源,也就是姓氏的地域分布数据;否则这个结论不一定正确。

实际上,很久之前百度贴吧之类的地方就出现过一些各种版本中国姓氏分布地图,可惜其中的姓并不全。我也一直想做一个更加完整姓氏分布研究。现在机会来了:

百度在搜索引擎上直接提供了失信被执行人名单查询的功能,输入姓氏搜索可以获得全名,以及身份证前6位。这些信息用python很容易能爬下来。需要注意的是,搜索到的信息里面经常会有重复的,需要按身份证号排重。

通过这些信息,我们如何得到姓氏分布呢?首先需要进行一个合理的假设:

失信被执行人产生的概率和地域无关,相当于在全国人群中随机抽样。

在某些稀有姓氏中,这个规律可能会被打破。例如某姓失信人员名单中总共只有数人,而且这几个人全部产生在同一个窝案,那么统计结果就会产生偏差。不过在主要的大姓当中,这个假设是可以成立的。

然而,由于我们不知道失信人群的抽样总数,姓氏在人口中的绝对比例我们是没有办法计算出来的。而在各省中的相对比例可以通过如下公式计算:

A姓在甲省的相对比例=A姓失信人口中甲省人数/甲省人口总量

也就是说,下面的这些数据只能对同一个姓氏在全国分布有效,不同姓氏之间互相比较是没有意义的。理论上同样的办法也能计算出精确到县级市的姓氏分布,这在有些情况下是有意义的。例如,鞠性分布在泰州地区特别集中。但是由于目前我手上没有比较精确的地县人口数据,也没有比较好的底图,所以没有制作更加精细的地图。

下面我们看一些典型的结果。传统江南大姓:朱,钱,陆,沈,顾。这几个姓氏在江南地区都是名门望族。如钱姓在浙江有钱学森、钱三强,在江苏无锡有钱钟书、钱穆、钱伯初、钱逸泰。他们据说都是吴越王钱镠的后代。数据结果证实,这几个姓氏在江苏和浙江确实分布比较集中。

南方和北方 余,于两姓的分布。

于和余的比较。于姓多分布在北方

于和余的比较。余姓多分布在南方

由于受到少数民族名的影响,巴和艾呈现出这样的结果。

百家姓全部姓氏的调查结果全部以图片形式保存在

http://optics.dicp.ac.cn/Xingshi.php

欢迎取阅。各个省份上标注的百分比,只是归一划后的相对值,没有绝对的比较意义。

更有意思的是,通过同样的技术,还可以对名字的分布进行研究。有些取名的风俗在南北方有明显差异。例如我老家有一个作曲家叫某振球,就是要震动地球的意思。这个名字取的当然很好,但是北方人似乎不会用。所以我就看了一下以球结尾的名字分布

另外我在江苏老家还有亲戚名某金娣的,回想起来似乎在辽宁从来没有见到过这种结构名字。

还有知乎上常年研究的重男轻女现象,这是一组关名字的分布。

百度给出的是姓名+身份证号码这样的数据形式,这启发我们还有许多可以做的后续工作。例如,身份证号码有出生年份数据,所以姓名的时代特色也可以统计出来。这里就不一一多说了。

(0)

相关推荐