国内NLP实验室哪家强?
AMiner已发布《自然语言处理研究报告》微信公众号菜单栏可直接下载研究报告为了方便大家学习,我们特地上线了精简版及详解版。AMiner基于论文数据整理了自然语言处理华人专家库,其中包括了来自NUS、HKUS、THU、PKU、FDU等知名高校以及百度、科大讯飞、微软等公司的367位专家学者。AMiner官方网站:https://www.aminer.cn/下面基于自然语言处理华人库中的数据对其进行分析。
AMiner自然语言处理华人库专家全球分布自然语言处理领域中华人专家在中国最多,美国次之。
AMiner自然语言处理华人库专家国内分布
AMiner自然语言处理华人库专家地区统计从地区来看,中国大陆是自然语言处理华人人才的最主要聚集地。尤其是北京、哈尔滨及东南沿海地区等具有自然语言处理学术基础的地区。美国东部和西部等其他地区排在其后。
AMiner自然语言处理华人库专家迁徙图由上图可以看出,华人专家在中国流出量大于流入量,美国则正好相反,这也说明就自然领域而言,中国对人才的吸引力要小于美国。
AMiner自然语言处理华人库专家h-index统计注:h-index指数国际公认的能够比较准确地反映学者学术成就的指数,计算方法是该学者至多有h篇论文分别被引用了至少h次。AMiner自然语言处理华人库中专家h-index指数的平均数为14,这一数值是远远低于自然语言处理全球top1000学者h-index指数平均数的。而且,在华人库中,h-index指数<10的专家人数最多,占比60%;10-19次之,占比17%;>60的专家占比仅占9%。这也说明,自然语言处理华人专家整体水平低于自然语言处理领域全球top1000的学者,尤其是在h-index指数>60的学者方面有所欠缺。
AMiner自然语言处理华人库男女比AMiner自然语言处理华人库367位专家中,男性专家占98%,女性专家仅占2%,二者比例约为49:1。AMiner基于发表于国际期刊会议的学术论文,对自然语言处理领域内专家进行深入挖掘,并按照相关度和影响力等对专家进行排序和分类。排序和分类规则主要参考专家的h-index、paper、citation、专家所获得的荣誉、任职机构排名、专家Activity、Sociability以及Diversity等,得到结果如下:清华大学孙茂松、朱小燕、马少平、李涓子等人北京大学王厚峰、李素建、穗志方、万小军等人哈工大赵铁军、刘挺等人中国科学院刘群、宗成庆、赵军、孙乐等人苏州大学张民、周国栋等人复旦大学黄萱菁等人东北大学朱靖波等人以下是AMiner挖掘出国内自然语言处理重要实验室及其主要负责人简介。中科院计算所自然语言处理研究组自然语言处理研究组隶属于中国科学院计算技术研究所智能信息处理重点实验室。研究组教师有刘群、冯洋等人。研究组主要从事自然语言处理和机器翻译相关的研究工作,研究方向包括机器翻译、人机对话、多语言词法分析、句法分析和网络信息挖掘等。研究组已完成和正在承担的国家自然科学基金、863计划、科技支撑计划、国际合作等课题40余项,在自然语言处理和机器翻译领域取得了多项创新性研究成果。研究组自2004年重点开展统计机器翻译方面的研究并取得重大突破,并于2015年起转向神经机器翻译并取得很大进展。2018年7月,正式加入华为诺亚方舟实验室,任语音语义首席科学家,主导语音和自然语言处理领域的前沿研究和技术创新。在自然语言处理的顶级国际刊物CL、AI和顶级国际学术会议ACL、IJCAI、AAAI、EMNLP、COLING上发表高水平论文70余篇,取得发明专利10余项。研究组已经成功将自主开发的统计机器翻译和神经机器翻译技术推广到汉语、维吾尔语、藏语、蒙古语、英语、韩语、泰语、日语、阿拉伯语等多种语言。部分语种的翻译系统已经在相关领域得到了实际应用,获得用户的好评。实验室在2017年发表论文见下表。ME-MD: An Effective Framework for Neural Machine Translation with Multiple Encoders and Decoders作者:Jinchao Zhang、Qun Liu、Jie Zhou收录会议:IJCAI 2017Deep Neural Machine Translation With Linear Associative Unit作者:Mingxuan Wang、Zhengdong Lu、Jie Zhou、Qun Liu收录会议:ACL 2017Incorporating Word Reordering Knowledge into Attention-based Neural Machine Translation作者:inchao Zhang、Mingxuan Wang、Qun Liu、Jie Zhou收录会议:ACL 2017Memory-Augmented Neural Machine Translation作者:Yang Feng、Shiyue Zhang、Andi Zhang、Dong Wang、Andrew Abel收录会议:EMNLP 2017Further Investigation into Reference Bias in Monolingual Evaluation of Machine Translation作者:Qingsong Ma、Yvette Graham、Timothy Baldwin、Qun Liu收录会议:EMNLP 2017Blend: a Novel Combined MT Metric Based on Direct Assessment——CASICT-DCU submission to WMT17 Metrics Task作者:Qingsong Ma、Yvette Graham、Shugen Wang、Qun Liu收录会议:WMT 2017CASICT-DCU Neural Machine Translation Systems for WMT17作者:Jinchao Zhang、Peerachet Porkaew、Jiawei Hu、Qiuye Zhao、Qun Liu收录会议:WMT 2017现任实验室主要负责人为刘群,中国科学院自然语言处理研究组组长,都柏林大学自然语言处理组组长、项目负责人。
曾负责863重点项目“机器翻译新方法的研究”和“面向跨语言搜索的机器翻译关键技术研究”等。哈工大社会计算与信息检索研究中心哈工大社会计算与信息检索研究中心(HIT-SCIR)成立于2000年9月,隶属于计算机科学与技术学院。研究中心成员有主任刘挺教授,副主任秦兵教授,教师包括张宇、车万翔、陈毅恒、张伟男等。研究方向包括语言分析、信息抽取、情感分析、问答系统、社会媒体处理和用户画像6个方面。已完成或正在承担的国家973课题、国家自然科学基金重点项目、国家863重点项目、国际合作、企业合作等课题60余项。在这些项目的支持下打造出“语言技术平台LTP”,提供给百度、腾讯、华为、金山等企业使用,获2010年钱伟长中文信息处理科学技术一等奖。研究中心近年来发表论文100余篇,其中在ACL、SIGIR、IJCAI、EMNLP等顶级国际学术会议上发表20余篇论文,参加国内外技术评测。并在国际CoNLL’2009七国语言句法语义分析评测总成绩第一名。研究中心通过与企业合作,已将多项技术嵌入企业产品中,为社会服务。双语例句检索等一批技术嵌入金山词霸产品中,并因此获得2012年黑龙江省技术发明二等奖。哈工大社会计算与信息检索研究中心现任负责人刘挺,哈尔滨工业大学教授,国家“万人计划”科技创新领军人才。
国家“万人计划”科技创新领军人才。多次担任国家863重点项目总体组专家、基金委会评专家。复旦自然语言处理研究组复旦大学自然语言与信息检索实验室,致力于社会媒体海量多媒体信息处理的前沿技术研究。主要研究方向包括:自然语言处理、非规范化文本分析、语义计算、信息抽取、倾向性分析、文本挖掘等方面。实验室开发了NLP工具包FudanNLP,FudanNLP提供了一系列新技术,包括中文分词、词性标注、依赖解析、时间表达式识别和规范化等。实验室先后承担和参与了国家科技重大专项、国家973计划、863计划、国家自然科学基金课题、上海市科技攻关计划等。并与国内外多所重点大学、公司保持着良好的合作关系。研究成果持续发表在国际权威期刊和一流国际会议(TPAMI、TKDE、ICML、ACL、AAAI、IJCAI、SIGIR、CIKM、EMNLP、COLING等)。复旦大学自然语言与信息检索实验室现任负责人黄萱菁,复旦大学计算机科学技术学院教授、博士生导师。
曾任2014年CIKM会议竞赛主席,2015年WSDM会议组织者,2015年全国社会媒体处理大会程序委员会主席,2016年全国计算语言学会议程序委员会副主席,2017年自然语言处理与中文计算国际会议程序委员会主席。清华大学自然语言处理与社会人文计算实验室清华大学计算机系自然语言处理课题组在20世纪70年代末,就在黄昌宁教授的带领下从事这方面的研究工作,是国内开展相关研究最早、深具影响力的科研单位,同时也是中国中文信息学会计算语言学专业委员会的挂靠单位。目前该课题组对以中文为核心的自然语言处理中的若干前沿课题,进行系统、深入的研究,研究领域的涵盖面正逐步从计算语言学的核心问题扩展到社会计算和人文计算。该课题组多篇论文被ACL 2018、IJCAI-ECAI 2018、WWW 2018录用,内容涉及问答系统、信息检索、机器翻译、诗歌生成、查询推荐等多个领域。具体见下表:Denoising Distantly Supervised Open-Domain Question Answering作者:林衍凯、计昊哲、刘知远、孙茂松收录会议:ACL 2018Incorporating Chinese Characters of Words for Lexical Sememe Prediction作者:金晖明*、朱昊*、刘知远、谢若冰、孙茂松、林芬、林乐宇(*同等贡献,本篇文章与腾讯微信合作)收录会议:ACL 2018Entity-Duet Neural Ranking:Understanding the Role of Knowledge Graph Semantics in Neural Information Retrieval作者:刘正皓、熊辰炎、孙茂松、刘知远(本篇文章与CMU熊辰炎合作)收录会议:ACL 2018Towards Robust Neural Machine Translation作者:程勇、涂兆鹏、孟凡东、翟俊杰、刘洋(本篇文章与腾讯AI实验室合作)收录会议:ACL 2018Chinese Poetry Generation with a Working Memory Model作者:矣晓沅、孙茂松、李若愚、杨宗瀚收录会议:IJCAI 2018Query Suggestion with Feedback Memory Network作者:武彬、熊辰炎、孙茂松、刘知远(本篇文章与CMU熊辰炎合作)收录会议:WWW 2018孙茂松,清华大学计算机科学与技术系教授,2007-2010年任该系系主任。
国家重点基础研究发展计划(973计划)项目首席科学家,国家社会科学基金重大项目首席专家。多次担任相关领域国际会议和全国性学术会议大会主席或程序委员会主席。北京大学语言计算与互联网挖掘研究组语言计算与互联网挖掘研究室从属于北京大学计算机科学技术研究所,成立于2008年7月。研究室以自然语言处理技术、数据挖掘技术与机器学习技术为基础,对互联网上多源异质的文本大数据进行智能分析与深度挖掘。为互联网搜索、舆情与情报分析、写稿与对话机器人等系统提供关键技术支撑,并从事计算机科学与人文社会科学的交叉科学研究。研究室当前研究内容包括:(1)语义理解:研制全新的语义分析系统实现对人类语言(尤其是汉语)的深层语义理解;(2)机器写作:综合利用自动文摘与自然语言生成等技术让机器写出高质量的各类稿件;(3)情感计算:针对多语言互联网文本实现高精度情感、立场与幽默分析;(4)其他:包括特定情境下的人机对话技术等。北京大学语言计算与互联网挖掘研究组现任负责人为万小军,北京大学计算机科学技术研究所教授,博士生导师。
担任计算语言学顶级国际期刊Computational Linguistics编委,TACL常务评审委员(Standing Reviewing Committee)。研制了自动文摘开源平台PKUSUMSUM,与今日头条合作推出AI写稿机器人小明(Xiaomingbot),与南方都市报合作推出写稿机器人小南等应用系统。北京大学计算语言学教育部重点实验室计算语言学教育部重点实验室依托北京大学建设。实验室研究人员由北京大学信息科学技术学院计算语言学研究所、中文系、软件与微电子学院语言信息工程系、计算机技术研究所、心理系和外语学院的相关研究人员构成。主要研究方向包括:中文计算的基础理论与模型;大规模多层次语言知识库构建的方法;国家语言资源整理与语音数据库建设;海量文本内容分析与动态监控;多语言信息处理和机器翻译。北京大学计算语言学教育部重点实验室现任负责人穗志方,北京大学信息科学技术学院计算语言学实验室主任,教授、博士生导师。
2011年度国家科技进步二等奖“综合型语言知识库”项目第二完成人。在计算语言学国际顶级会议ACL 2000、COLING2008、CONLL 2008、ACL 2009、EMNLP2009、AIRS 2008上发表多篇学术论文。中科院模式识别国家重点实验室中科院模式识别国家重点实验室自然语言处理组主要从事自然语言处理基础、机器翻译、信息抽取和问答系统等相关研究工作,力图在自然语言处理的理论模型和应用系统开发方面做出创新成果。近年来,研究组注重于自然语言处理基础理论和应用基础的相关研究,承担了一系列包括国家自然科学基金项目、973计划课题、863计划项目和支撑计划项目等在内的基础研究和应用基础研究类项目,以及一批企业应用合作项目。
宗成庆,模式识别国家重点实验室研究员、博士生导师。
目前担任亚洲自然语言处理学会(AFNLP)候任主席,2014年获“钱伟长中文信息处理科学技术奖”一等奖,2015年获国家科技进步奖二等奖,2017年获北京市优秀教师荣誉称号。清华大学智能技术与系统国家重点实验室智能技术与系统国家重点实验室依托在清华大学。
实验室学术委员会由17名国内外著名专家组成。实验室学术委员会名誉主任为中科院院士张钹教授,主任为应明生教授、副主任为邓志东教授。清华大学智能技术与系统国家重点实验室现任负责人朱小燕,清华计算机系教授,博士生导师。
作为项目负责人先后承担国家863,973项目,自然科学基金项目、国际合作项目多项。1997年获国家教委科技进步二等奖,2003年获北京市科技进步二等奖。获得国家发明专利3项。在各种国际刊物和会议上发表论文近100篇。您觉得国内自然语言处理领域哪家实验室略胜一筹呢?请投上您宝贵的一票,也欢迎大家给我们留言~