性别预测还能这么玩?告诉我你的姓名就够了!
近日,AMiner发布了最新版性别预测,只要登录以下网址(或者点击下方的阅读原文):
https://www.aminer.cn/gender
在Name一栏中,输入你的姓名,注意是英文噢,点击提交,答案就在下方!
至于准不准呢?
我们说了不算,等你来回答!
你,试过了吗?
在下图中,点击why?我们为你揭晓了答案。
测试结果
那么,我们究竟是如何推断你的性别呢?
在这个性别测试系统中,我们主要利用了以下三种性别推断方法,并提出了一个投票模型,将其结果纳入最终预测。
Face Recognition(FR)使用姓名和隶属关系信息作为查询词,将第一张返回的图片提取为用户肖像。通过使用Face++提供的用于人脸识别的API,我们可以轻松获取人脸的性别信息。FR对应界面中的“Face Recognizer”项。
Facebook Generated Name List(FGNL)是在[Tang,2011]中提出的,并作为[Gu,2016]第3.c节中的基线之一引入。基本上,它从Facebook上收集了一个带有相应性别值的常用名列表。如果用户名与列表中的任何条目匹配,FGNL将返回Gender值;否则,返回“未知”。FGNL对应界面中的“Name Classifier”项。
Web Based Gender Predictor(WebGP)代表有监督信息抽取框架,如[Gu,2016]的“方法”部分所示。简而言之,我们在谷歌等搜索引擎中自动构造有效的查询,以获取可能包含目标用户性别信息的相关片段。WebGP对应于界面中的“Google”项。
[Tang, 2011]Tang, Cong, Keith Ross, Nitesh Saxena, and Ruichuan Chen. “What‘s in a name:a study of names, gender inference, and gender behavior in facebook.” In International Conference on Database Systems for Advanced Applications, pp. 344-356. Springer Berlin Heidelberg, 2011.
[Gu, 2016]Gu, Xiaotao, Hong Yang, Jie Tang, and Jing Zhang. “Web user profiling using data redundancy.” In Advances in Social Networks Analysis and Mining (ASONAM), 2016 IEEE/ACM International Conference on, pp. 358-365. IEEE, 2016.
Vote Model (Final)是按照“一人一票”的原则将所有这些方法的推论结果进行整合,最终选择投票数较多的性别价值。这种投票模型的直觉是很自然的,因为每一种方法都擅长预测具有某些特性的用户,但也有一定的限制。
例如,FGNL是西方国家中最常见的名字,具有明显的性别偏见(例如,“Nancy”通常是女孩的名字),因此对于列出的名字非常精确。然而,它的召回受到名单覆盖范围的限制,很难与韩国和日本等国家的外国名字相匹配。
因此,最直接的解决方案是训练另一个分类器,该分类器从每个方法中获取预测结果,为其学习“权重”或“可信度”,并给出“加权”预测。在这里,我们将其简化为投票模型,这意味着我们平等地信任每种方法。实验表明,该投票模型在提高整体绩效方面效果良好。
我们为性别推断提供了开放的API,与支持此应用程序的API相同。您可以通过GET请求轻松地访问它,并获得JSON编码的快速响应。
GET请求应如下所示:
https://innovaapi.aminer.cn/tools/v1/predict/gender?name=jie%20tang&org=tsinghua
以JSON编码来响应,并且包括每种方法的推理和概率。
举个例子: