LIX教授Michalis专访:如何写好一份AI报告
Dr. Vazirgiannis is a Professor in LIX, École Polytechnique.他目前的研究兴趣是在大数据挖掘领域 ,旨在利用机器学习算法的潜力来处理包括文本和图形在内的大规模数据集。更具体地说,他目前的工作是关于大规模图挖掘的图退化,基于图的文本检索,来自时间序列数据的学习模型和用于web的文本挖掘(即广告,新闻流)。Dr. Vazirgiannis更多个人研究成果详参AMiner:https://www.aminer.cn/profile/michalis-vazirgiannis/53f556b7dabfaea7cd1d5889
学术君
Michalis教授,请问对于AI人才的分析,您为什么以d-core作为重要影响指标?
d-core是我们几年前开发的一个重要影响度量方法。例如,论文作者之间存在互相引用的关系,如果我写的论文引用你的一篇论文,那么我和你之间就有了一条边。从而可以构建一个引用图,它是一个有向图。
所以想法是,当你被引用时,当他们指向你时,你是重要的。当你引用其他人时,这意味着你是社会性的/综合性的。在一个极端的情况下,当你被所有人引用而你从不引用任何人时,你有点“自私”。另一方面,如果你引用他人,这意味着你是擅长合作的。所以这正是d-core所度量的。
因此我们有了d-core的概念,d-core的核心是k-core。k是引文的最小数目。为什么要最小?因为我们在寻找稠密的子图,即正在寻找最重要的图。所以k-core是一个每个节点的度都大于或等于k的图,这意味着你属于一个非常密集的图,也意味着存在许多引用关系。
(例如,俞博士(见图1),在他属于的引用网络,每个作者至少被250人引用,并且引用了220个其他作者。这意味着他是一个非常权威的人,同时也融入了他的研究群体。这个指标可以应用于其他情况,在这些情况下,我们从社交网络中识别最有影响力的人,甚至是群体。
Michalis
Fig 1. D-core visualization in the Aminer platform.
学术君
您对AMiner官网的趋势分析模块有什么看法?
关于研究论文的趋势——这是一个有趣且具有挑战性的话题。在论文中,你有关键词(即数据挖掘、深度学习、并发控制)以及它们随时间变化的引用频率,所以你可以考虑通过论文中出现的关键术语中创建一个引文图表,这个引文图及其时间特性可以为检测趋势提供一些有趣的元素。
Michalis
学术君
请问您是如何从论文摘要中提取关键词?
从文档中提取关键字是标记文档的一项重要任务。我们在几年前发明了一种单词的图[1],这种方法很有价值。例如,这里有b c d f g,这些是抽象的单词,而你现在有一个大小为三的窗口。通过滑动窗口,你使a连接到b,b连接到c,逐步创建出所谓的单词图。所以这个文档正在变成一个图。我们创建了一个文档的单词图,然后将节点/单词保存在最密集的子图中——用k-core近似。这些词就是文档提取的最佳关键字[2]。
如果你保留了图中最密集的部分,即k-core图,那么你就有了最好的关键词。
我们也可以使用这种方法来查找语言中的停用词。
然后我们可以做关键短语提取。这些是重要的关键词,根据这些关键字,你可以生成文档的提取摘要。请参阅图1a工具,了解提供上述所有可能性的非常有趣的文档可视化和探索。
Michalis
Fig 1a.Gowis document visualization and exploration tool (https://safetyapp.shinyapps.io/GoWvis/)
学术君
科学领域和大学的交叉,跨学科引用的趋势是什么?
跨学科引用的趋势是什么(如生物学引用物理学论文的论文)?这是如何逐年发展的? 我们在我们的数据科学和挖掘小组中,计算了不同领域的论文之间的引用。 有关此工具的可视化,请参见图2[3]。
Michalis
Fig 2. Cross disciplinary citationsevolution
我们还开发了一个工具来显示机构之间的引用 - 见[4]。 例如,你可以看到很多引用指向了中国科学院,伯克利等等。所以在各个机构之间交换引文是很有趣的,你可以看到其中的一些规律。 例如,这些是与清华有关的引文(图2),也很有趣。
Michalis
Fig 3. Cross institutional citations.
[1]Graph-of-word and TW-IDF: new approach to ad hoc IR, F. Rousseau, M.Vazirgiannis, Proceedings of the 22nd ACM international conference onInformation & Knowledge Management, 2013, best paper mention award.
[2] A graphdegeneracy-based approach to keyword extraction, A Tixier, F Malliaros, MVazirgiannis, 2016 Conference on Empirical Methods in Natural LanguageProcessing.
[3]Scientometrics:crossdisciplinary citations evolution: http://www.lix.polytechnique.fr/Labo/Christos.Giatsidis/microsoft_academic_interdiscipline_exploration.html
[4]Scientometrics:cross institutional citations:http://moodle.lix.polytechnique.fr/institution_visualization_demo/#