互助问答第473期:关于全球数据库的国家匹配问题问题
关于全球数据库的国家匹配问题
尊敬的老师,我想请教下,在用全球数据的多个数据库时,发现各个数据库国家名称不匹配的很多(比如世界银行和战争相关数据库),请问有没有什么技术性解决方法?还是说国家code是全球通用的,是我其他操作有问题?
我的理解是,数据本身总是要清理的,几乎不可能拿过来直接就用,国家这种变量已经算比较清楚的了。可以按照某一个dataset里的国家名称,然后其他的都对应过去,也可以所有的都对应到一个通用标准上(比如,alpha 2 两个字母的国际标准国家代码 / alpha 3 三个字母的国际标准国家代码等等)。国家不匹配我想一个是因为名字的写法多样(比如China / PRC),一个是国家/成员有时候定义比较tricky(举个不那么政治的例子,英格兰是足球世界杯的参赛球队,不是英国),另外在一个时间段内,国家也是会变的,虽然变得不多(就好比中国市一级的区划有时候也是变化的)。
赞 (0)