新闻 | 谷歌推出搜索引擎以获取开放数据

一、新闻短讯:

2018年9月5日,谷歌推出了一个搜索引擎名为Google Dataset Search,以帮助研究人员找到免费使用的在线数据,称其针对的是“科学家,数据新闻工作者,数据极客等”,这个工具应该可以帮助研究人员更轻松地找到他们需要的数据。

二、新闻内容:

 谷歌推出了一个搜索引擎,以帮助研究人员找到免费使用的在线数据。该公司于9月5日推出该服务,称其针对的是“科学家,数据新闻工作者,数据极客等”。

Google Dataset Search现在可与Google的其他专业搜索引擎一起使用,例如新闻和图片搜索引擎、Google学术和Google图书。它们可以查找文件和数据库。它不像搜索引擎对网页那样读取文件本身的内容。专家表示,Google Dataset Search填补了空白,可以为开放数据的成功做出重大贡献,使数据公开可供使用和重复使用。

政府机构,科学出版商,研究机构甚至个人研究人员在全球范围内维护着数千个开放数据存储库,其中包含数百万个数据集。加州山景城Google AI的计算机科学家Natasha Noy说,想要知道哪些类型的数据可用,或希望找到他们已知存在的数据的研究人员,往往不得不依赖于效率较低的交口耳相传的流方式。这个问题对于早期职业研究人员来说尤为严重,他们尚未建立专业的联系网。对于那些从事跨学科研究的人来说, 例如,一位需要获取可能与病毒传播相关的气候数据的流行病学家,寻找自己所需要的数据也是非常困难的,这也是一个不方便的缺点。

分类搜索

Noy和她的谷歌同事Dan Brickley 在2017年1月的博客中(https://ai.googleblog.com/2017/01/facilitating-discovery-of-public.html)首次叙述了解决该问题的办法。典型的搜索引擎分两个主要阶段。第一种是通过不断搜索来索引到可用页面。第二种是对那些索引页面进行排名,以便当用户输入搜索项时,搜索引擎可以按相关性顺序提供结果。

Noy和Brickley写道,为了帮助搜索引擎对现有数据集建立索引,那些拥有这些数据集的人应该使用名为Schema.org的标准化词汇表“标记”它们,这是一个由Google和其他三个搜索引擎巨头(微软,雅虎和Yandex)创建的计划,由Brickley管理的。Google团队还开发了一种用于在搜索结果中对数据集进行排名的特殊算法。

伦敦数据共享公司Figshare的首席执行官Mark Hahnel表示,鉴于谷歌在网络搜索领域的主导地位,该公司正在进入数据生态系统的消息迅速促使主要搜索引擎公司加入并将其元数据标准化。(Figshare由Holtzbrinck出版集团运营,该集团在Nature的出版商中占多数股份。)

“到11月份,我们所合作的所有的大学都将他们的数据标记出来,我认为这是学术界开放数据的一次改变。”Hahnel说。他表示,资助机构有时会强制要求提供研究数据,只有在信息可以有效获取的情况下才能达到最终目标。“它使资助者试图做的事情合法化。”

代理商合作

谷歌的早期支持者是美国国家海洋和大气管理局(NOAA)。该机构的研究范围从渔业到太阳的日冕,其档案包含近70,000个数据集 - 包括19世纪的船舶日志。该数据的总容量超过35PB,与35,000个典型硬盘的内容相当。

NOAA首席数据官Edward Kearns表示,Google的工具将帮助NOAA完成其开放数据任务。“我们希望探索新方法,并将这些数据提供给其他人”。

为了使Dataset Search 起作用,让数据所有者协作是至关重要的一步。尽管该系统未来可能会变得更加复杂,但Google目前还没有计划实际读取数据或分析数据。Noy说“若搜索工具与元数据一样好,那么数据发布者才愿意提供数据”。

与谷歌学术搜索一样,数据集搜索目前不提供自动查询或应用程序编程接口(API)的访问权限。但是该公司表示它可能会在未来添加该功能。

Noy说,随着研究人员开始使用数据集搜索,谷歌将观察他们如何与之互动并使用这些信息来改善搜索结果。她说,该公司目前没有将服务收费化的计划。

随着Dataset Search 的发展,它也可能与Google学术整合,并且将特定研究的搜索结果链接到相关数据集。

四、原文学习:

长按或扫描,免费查看原文

(0)

相关推荐