近日,由清华大学人工智能研究院、清华-中国工程院知识智能联合研究中心和智谱AI联合发布了《人工智能之学术搜索》报告。报告显示,得益于人工智能技术的不断引入,未来学术搜索产品将呈现出知识融合与推理、智能挖掘高精度算法双引擎驱动的发展趋势。
该报告以 AI 赋能的学术搜索为核心,在梳理学术搜索概念特征、发展历程、工作原理以及系统架构的基础上,重点分析解读了 AI 技术在学术搜索领域的具体应用情况、领域专家人才现状、典型产品的资源覆盖和功能特色,以及 AI 学术搜索技术与应用的未来发展趋势,并探讨了学术搜索领域的市场主体如何才能更“智能”、更“聪明”、更“定制化”地为科研用户提供相关情报服务。展示主流学术搜索产品中已引入的AI特色功能;
挖掘AI学术搜索领域专家学者并进行人才画像;
预测AI学术搜索技术趋势,为产品性能提升提出建议。
报告通过 AMiner 科技情报大数据挖掘与服务系统平台,对近 10 年(2009-2019年)领域高端期刊会议的论文数据进行挖掘,基于“学术搜索”相关的关键词库以及关键词智能匹配挖掘出所有相关论文。然后,进行文献分析、论文与学者数据挖掘、特征抽取、学者画像、技术预见等一系列分析。智源研究院学术副院长、清华大学计算机系唐杰教授认为,人工智能在过去十年中已基本实现了感知能力,但却无法做到认知能力(推理、可解释等);因此在学术搜索的未来,将主要会去实现具有推理、具有可解释性、具有认知的智能搜索功能。清华大学计算机系教授李涓子强调,学术搜索未来核心技术将在知识融合基础上,以知识加工技术和智能挖掘算法作为技术驱动的双引擎,发展出更多的科技创新智能化应用。学术搜索产品可以分为两大类:融合开放数据和服务、专门数据库和服务。前者较知名的产品有 Google Scholar, Microsoft Academic 和 Semantic Scholar 等,后者较知名的产品有 Web of Science, Scopus 和 CNKI 等。信息抽取引入了机器学习、深度学习和人工神经网络等技术
用户交互引入了自然语言处理NLP和语义分析等技术
作者识别技术、命名消歧技术
信息集成中引入了NLP、人工神经网络、知识库管理等技术
信息检索引入了知识图谱模型构建、计算机视觉检索模型等技术
文献或作者推荐中引入了协同过滤算法、知识管理、数据挖掘、智能推荐、机器学习、深度学习等技术
排序及论文影响力评价引入了排序学习、深度学习、自然语言处理、机器学习等技术
报告还研究了学术搜索领域的相关学者分布情况。结果发现,在 2009-2020 年期间,全球学术搜索领域学者数量共计 7262 位, 覆盖全球 54 个国家,主要集中在北美洲的美国地区;欧洲中西部也有一定的学者分布;亚洲的人才主要分布于中国、新加坡、印度及日韩等地区;其他诸如南美洲、非洲等地区的学者数量稀少。在中国地区,领域学者主要分布在北京、上海和深圳,安徽、陕西、湖北等省份也有少量分布。从排名上看,学术搜索领域学者数量 TOP10 国家是美国 (1791位)、中国 (1373位)、英国 (326位)、德国 (302位)、加拿大 (261位)、新加坡(210位)、澳大利亚 (175位)、荷兰(233位)、日本(222位)、西班牙 (181位)。在学者的跨国合作中,与中国学者合作论文数量前十的国家分别是美国、新加坡、英国、澳大利亚、加拿大、荷兰、日本、德国、印度和法国。其中,中国学者与美国学者合作发表论文最多,共计 161 篇。在领域学者数量排名前十的机构之中,清华大学位列第一,领域学者数量为 231 人,但学者 h-index 均值在排名前十机构中仍处于偏低位置。微软和卡内基梅隆大学分别位列第二位、第三位,领域学者数量分别为 202 人、199 人,这两家机构的领域学者 h-index 均值都处于较高水平。全球化的背景下,学者的迁徙也时有发生。目前,美国领域学者流动最大,迁徙总数为 12686 人次,其中迁入 6452 人次,迁出 6234 人次。中国领域学者流动量排名第二,迁徙总人数为 9644 人,其中迁入 4722 人次,迁出 4872 人次,且中国学者流动总体呈现逐年减少趋势。随着文献数据量的不断扩大,以及数据库的检索和排序功能日益完善,对期刊、文献或学者进行学术影响力评价的需求越来越大,也越来越受到学术界的重视。自 20 世纪 90 年代以来,学术搜索产品逐渐开始利用自身不同数据源的文献及引文数据等构建出了各种评价指标模型。这些学术评价指标主要分为期刊评价指标、文献评价指标和作者评价指标三类。报告指出,AI 学术搜索领域相关技术预见主要包括:data mining(数据挖掘)、support vector(支持向量)、social network(社交网络)、machine learning(机器学习)、feature extraction(特征抽取)、computer mediated communication(计算机中介传播)、collaborative filtering(协同过滤)以及search engine(搜索引擎)等。关于 AI 学术搜索技术的未来发展,报告强调,随着AI和IT技术在学术领域的广泛和深入应用,学术搜索的未来发展将呈现出多源异构知识融合化、知识加工设施化和自动化、智能挖掘算法高度精准化、科技应用智能化和创新化四大趋势。展望未来,AI 学术搜索不仅可以支持快速获取来自所有科学领域的科学论文,快速了解文献趋势和新的研究领域,可以快速将所有信息链接在一起,找到研究之间的联系,形成一整套前沿研究的全貌。基于人工智能技术的学术搜索不仅可以分析研究论文,辅助学术科研工作,而且将承担挖掘科技竞合情报,助推企业、行业乃至产业的创新变革的重要角色。