澳大利亚大学e-Research科研合作 | 科研信息化
昆士兰大学和莫纳什大学是两所澳大利亚著名的高等学府,都以其卓越的教学和精湛的科研在国际享有声誉。在最新的QS大学排名中,昆士兰大学位居世界第47位,莫纳什大学位居第60位。昆士兰大学在21个领域的教研水平达到或超过国际一流水平,其中生物和临床医学、应用生物、环境科学、物理等7个领域达到世界领先水平。莫纳什大学有27个专业位列世界大学学科排名前50内,其中药剂与药理学专业位列全球第2位,仅次于哈佛大学。随着澳大利亚国家e-Research研究计划的实施,两所大学都开始利用其优势和学校各学院、国际组织、国外大学共同开展跨学科的合作创新科学研究。其中昆士兰大学研究计算中心和莫纳什大学e-Research中心以独特的优势为该校的科研信息化带来新的发展和活力。
昆士兰研究计算中心
昆士兰研究计算中心
QRCC相关情况
昆士兰研究计算中心(QRCC)成立于2011年,它受到昆士兰大学在e-Research上的大量可持续投资支持,帮助昆士兰大学的研究人员跨越学科,充分利用如高性能计算、数据存储、数据管理、可视化、工作流和视频会议等e-Research技术,通过研究协作,整合先进的计算手段、数据分析和其他数字研究工具,促进该学校自然科学、工程、人文和社会科学的发展。该中心利用政府在昆士兰大学的网络基础设施基金会(QCIF)、国家e-Research协作工具和资源(NeCTAR)、研究数据存储基础设施(RDSI)和澳大利亚国家数据服务(ANDS)等方面的投资,与QCIF、云计算和数据存储服务中心以及澳大利亚云计算研究中心的昆士兰大学节点合作,充分利用自身、学院、研究中心、研究所和其他支持团体的专业知识,在生物科学(特别是生物信息学和基因组学)、计算工程、环境与生态、人文社会科学、高级成像等方面取得了很大的成就。
QRCC由多部门和团队组成,研究涉及多项e-Research研究方法的关键技术,如云计算、数据管理、高性能计算、工作流程工具和可视化,将这些技术、计算设施和其他学科的研究紧密结合,对加速本校的科学研究进程起到了至关重要的作用。
1.高性能计算
昆士兰大学有三个比较大的国家级高性能计算资源:Tinaroo、FlashLite、Awoonga。其中Tinaroo是一个传统的高性能计算集群,拥有6000个核心和30TB的内存,主要用于紧耦合的并行应用;FlashLite主要用于一些数据密集型研究(例如基因组学和天文学);Awoonga是QRCC与QCIF2017年合作建立的一个新集群。Awoonga具有强大的计算环境,支持Nimrod参数扫描和工作流程工具,主要用于串行或适度并行计算优化、高吞吐量的工作。而且Awoonga和Tinaroo 、FlashLite共享文件系统、软件和环境,使得三个集群之间的作业迁移变得非常方便。VLSCI是在维多利亚州一个专为生命科学计算(大脑研究所、生物与纳米科技研究所、生物分子所)提供的超级计算中心,在该地区有非常大的影响力,主要提供维多利亚州的研究人员使用。
2.云计算
QRIScloud是QRCC和QCIF合作建立为该校的研究人员提供云计算和数据存储服务,目的是为了激励各个学科的研究人员对云计算的研究,并加强与国内外其他研究人员的合作。在QRIScloud平台,研究人员可以与全球合作者共享数据集;随时管理访问他们的数据集;利用存储在各州和国家研究数据存储基础架构(RDSI)节点中的数据集,整合访问昆士兰的高性能计算设施和专业化的云服务;虚拟实验室访问等。
3.数据管理和存储
QRCC也从事数据存储技术方面的研究。他们开发了用于大学内部的高性能数据存储架构MeDiCI(Metropolitan Data Caching Infrastructure)。MeDiCI是一个分布式文件系统,研究者无论在何时何地创建数据、操作数据、存储数据,MeDiCI都可以无缝访问到这些数据。另外学校的图书馆主要负责数据管理计划、元数据设计和管理、研究数据出版标准。
4.科学工作流
现代科学是一个复杂的过程,它通常涉及多个资源的协调,如仪器、计算机和数据存储,以及多个逻辑和学科交叉。多年来,研究人员一直在努力构建网格中间件来弥合不同硬件和软件之间的差距。虽然网格中间件功能强大,但对于普通科学家来说却相当复杂,而科学工作流不需要他们对网格计算有广泛的了解。科学工作流主要涉及科学研究中各个步骤的自动化、管理和执行,有助于科学研究的重复性。它可以提供广泛的预定义组件,比如从传感器获取需要输入的数据、查询数据库、数据挖掘、数据执行再到可视化结果。目前有很多的工作流工具,QRCC主要使用Nimrod、kepler和Galaxy。
5.可视化
可视化是帮助研究人员深入了解数据和计算模型的图形说明,可以让研究者获得更加直观的体验。可视化工具和服务帮助研究人员通过使用图形、色彩和交互性来从他们的数据中建立影像。随着世界研究数据的增长,可视化越来越多地用于显示数据的变化趋势或模式,并有效地传递研究信息和研究结果。QRCC的可视化专家与本校研究人员合作,帮助他们实现研究需求,目前有Matlab、VTK、ParaView和POV-Ray等可视化工具。
有影响力的项目
1.全球盖茨资助项目(红薯项目)
Bill & Melinda Gates基金会资助的项目主要涉及美国、非洲、南美和澳大利亚的研究人员,旨在改善作农物生长和甘薯的遗传构成,帮助撒哈拉以南世界上最贫穷的非洲地区。在全球研究合作中,昆士兰大学的科学家使用FlashLite高性能计算设备来开展此项工作,以提高红薯的质量。该学校分子生物学研究所开发了基因组、遗传和生物信息学软件工具的数字平台,可以帮助全世界的研究人员有效地对甘薯基因组测序。而这些工作依赖于有足够内存、存储空间和快速I / O速度的超级计算机。
2.濒危物种指数项目(TSX)
目前澳大利亚政府列出全国有1800多种动植物濒临灭绝,但是迄今为止却没有关于受威胁物种趋势的全国性报告,这种情况对政府来说会造成重大的政策和管理后果。该项目由澳大利亚各地的研究人员组成,并与澳大利亚环境和能源部门合作,意在开发一种工具能够对澳大利亚生物多样性的广泛状况进行全面的报告。项目得出的指数为澳大利亚濒危和濒临灭绝的物种变化提供了可靠而有力的衡量标准。另外项目还将得到一些更加一致和透明的报告如澳洲生物多样性的变化,并帮助那些致力于保护受威胁物种的工作者。这是澳大利亚首次发布濒危物种指数,在全球范围内也是首次。该项目的结果是建立一个综合的国家濒危物种数据库,以便将指数永久地结合起来。推动这一项目的博士后研究员Elisa Bayraktarov博士说,这种指数不仅需要一种可靠的方法来计算和可视化濒危物种数量的变化,还需要大量的数据处理。该项目用到了工作流软件Nimrod,并且使用了QRIScloud存储数据和多核的并行计算来完成数据的处理,最后对结果进行可视化显示并对公众开放。
3.环境生态系统科学研究协作与分析系统CoESRA
研究结果的重现性长期以来是科学家们的热门话题。科学研究中数据快速增加、计算日益密集,重现他人的研究变得越来越难。所以由陆地生态系统研究网络(TERN)和QRCC开发了虚拟桌面形式的可再现科学基础设施CoESRA。CoESRA是一个免费的虚拟桌面环境,为研究人员提供一个可移植的、强大的计算环境来运行实验并分享他们的工作。它配备Kepler和Nimrod科学工作流系统软件,同时QRIScloud为CoESRA提供计算和存储基础服务。CoESRA旨在使生态系统科学研究以其他方式重现、构建、执行、共享可重复的基于工作流的科学实验。用户不需要下载任何软件就能够通过云平台创建、执行和共享数据模拟、可视化、数据和分析结果,而且整个过程链可以被存储并与其他科学家共享,从而提高了研究结果的可重复性和透明性,也大大降低他人重新启动实验的成本。
莫纳什大学e-Research 中心
莫纳什大学e-Research中心
中心相关情况
莫纳什大学e-Research中心(MeRC)建于2006年,一直致力于将先进的计算和信息技术应用于重要的研究问题来加速科学研究。中心的主要作用是与大学的研究团体合作,和他们一起提高研究团队的e-Research研究能力并使之达到一个新的水平,然后将他们连接到最适合的机制或服务,以使该研究团体能够维持这种能力。该中心与学校老师、澳大利亚研究机构和设施以及全球研究团体开展合作,也是国际e-Research项目的领导者,运营着多个国家项目,包括大型高性能计算设施、Petascale数据存储基础设施以及国家特色虚拟实验室。中心主要提供包括Collect、Compute、Comprehend、Collaborate、Communicate和Customize等特色服务。
1.Collect
在研究项目中,研究人员需要有效地管理、安全地存储和备份他们的数据来确保研究数据的可用性。Collect服务为研究人员提供了从仪器和实验中获取数据、管理数据、共享数据到数据重用的解决方案。VicNode是该中心为研究者提供的一个千兆亿级集中式存储项目。它能够为各种研究数据提供一个安全、可持续的轻松存储和共享研究数据服务。VicNode也是澳大利亚国家研究数据服务的一部分,存储位于维多利亚州的墨尔本大学,并和AARNet高速连接。除此之外,莫纳什大学还部署了一个专门连接科学仪器设施的数据平台MyTardis,它可以协助研究人员储存、管理、分享和传播科学仪器产生的数据。如该平台和基因测序仪器整合,通过提供一种自动和结构化的方法来捕获、存储和共享该测序仪器运行的结果,并与相关的质量报告和元数据共享,从而使设施管理人员和基因测序器用户受益。目前MyTardis应用在显微镜、显微分析、粒子物理学、下一代测序和医学成像等研究人员的数据管理,澳大利亚10多所大学和研究机构都在使用这套系统。
2.Compute
该项服务主要是利用高性能计算设施来进行数据的处理、模拟、仿真和可视化。莫纳什大学的高性能计算设施包括国家计算基础设施(NCI);澳大利亚多模态科学成像和可视化环境 (MASSIVE); 莫纳什大学集群(MonARCH)和莫纳什研究云 (R@CMon)。其中MASSIVE是澳大利亚的一个用于科学数据成像和可视化应用的专业级高性能计算设施,它提供软硬件和专家驱动了该校生物医学的研究。尤其适合一些需要高速并行处理的图像分析、交互式可视化、建模和仿真以及渲染的大型可视化项目。该设施产生的CVL(Characterisation Virtual Laboratory)是由NeCTAR项目支持的一个虚拟实验室。它将澳大利亚研究成像的设备、计算与数据存储基础设施和工具结合起来,通过一个基于云的远程桌面环境提供可以访问成像工具和数据的在线环境,并用它提供的一系列工具为原子探针、神经成像、结构生物学、X光影像和一般数据成像等项目进行数据处理。这个项目对澳大利亚科学家未来的研究能力至关重要。在2017年的一个评估中,它和其他三个国家级虚拟实验室被认为投资回报(ROI)至少是对每个虚拟实验室每个指标投资的两倍,也表明该服务具有显著的经济和用户影响。
3.Comprehend
沉浸式可视化(Immersive Visualization)技术促进了对研究数据的理解,并有可能导致新的研究发现。Comprehend服务提供的莫纳什大学可视化平台(MIVP) 运营着莫纳什大学许多先进的、大规模的可视化设备,目标是通过与科研团队合作,创新和促进沉浸式、协作式的数据和环境可视化的新范式来改变可视化实践,并支持和加速大数据时代协同、可视化发现在学术和商业研究中的应用。CAVE2项目,一个混合2D和3D的虚拟现实环境让莫纳什大学在数据可视化领域展现卓越的能力。Encube项目,一个用于定性、定量、对比的可视化和分析应用,适用于高分辨率、沉浸式三维环境。该项目被用来观察和比较大脑的扩散MR图像、星系的中性氢图和斑马鱼的共聚焦显微镜图像。Supercell项目是对澳大利亚内陆地区以及珊瑚礁的精密激光扫描和摄影测量进行的渲染,可以让这些水下环境一览无余。
4.Collaborate
研究人员通常需要与世界各地其他研究机构的同事合作,并跨越研究领域。该项服务为研究人员提供各种解决方案,以促进和加强他们之间的研究合作。其中一个比较有特色的项目就是Confluence,它是一个企业wiki,为用户提供一个安全、稳定和可定制的wiki环境。利用Confluence研究者可以查询、创建、共享和讨论的文件、思想、会议记录、模型、图表和项目,成为莫纳什大学团队协作和共享知识的地方。Sakai是一个旨在帮助导师、研究人员和学生创建合作网站的一套软件工具。不同的用户可以根据自己的需求建立不同特色的站点,如项目发布和资源共享、在线讨论、电子提交作业等。
5.Communication
这项服务有助科研人员于发现、访问和重用研究数据,支持他们的研究结果,增强研究的影响,并帮助研究人员遵守项目资助的规则。莫纳什大学RDA(Research Data Australia ) 项目可以让师生在100多个澳大利亚研究机构、政府机构和文化机构中寻找、获取和可重用的研究数据。Figshare项目是专为莫纳什大学研究人员和研究生提供的协作式数字存储库,用来描述莫纳什大学所有的研究成果。它提供近650种类型的文件存储,可以安全的管理私人或公开的研究成果,使用者随时访问在线数据,所有的成果通过DOI方便引用或其他研究者访问,大大促进了研究合作。
6.Customize
这项服务使研究人员能够轻松访问高级的软件和网络开发人员为研究者开发创新和定制的软硬件。CART是一种在线数据管理工具,帮助研究人员在单一的集成环境中存储和分析其数据。它可以完成分布式的数据捕捉、集中式的数据存储、灵活的数据整合和模型的可视化功能,目前该工具被应用到澳大利亚的一个促进城市绿色、低碳的项目中。
有影响力的项目
1.3D可视化肺部活动
通常,我们可以通过CAT扫描获得想要的肺部图像。但是当它用来促进诊断、治疗某些肺部突然疾病的时候往往需要图像变得更加清晰,从而更好地理解肺的工作方式,比如将静态图像转换到3D的运动视图。 莫纳什大学Andreas Fouras教授用了5年的时间捕获了肺和其他器官的3D运动视图。他首先使用澳大利亚同步加速器的医疗束线获得干净、清晰和高质量的图像。然后他在MASSIVE上使用可计算的断层扫描X射线测速技术来开发3D运动视图。通过这项技术,他们已经能够证明如果肺部发病或受伤,肺部会发生不同的运动,这样可以帮助早期的肺部疾病诊断。
2.飞机湍流模拟与可视化
如果一架飞机在飞行时阻力减少10%,可以节省15亿澳元的燃料成本并减少环境污染。由于边界层的结构根据物体的大小、方向和速度可能会发生剧烈、而不可预知的变化,所以了解边界层的湍流机制仍然是一个挑战。莫纳什大学Julio Soria索里亚教授和他的团队利用MASSIVE和NCI提供的尖端测量和处理技术,快速处理和可视化他们收集的数据流,并运行大量数值模拟:直接数值模拟(DNS)和大型涡流模拟(LES),最终在理解湍流方面取得了进展。索里亚教授表示,没有MASSIVE和NCI的超级计算机,就不可能做这样巨大的计算和加载如此多数据的可视化。
3.噬菌体结构破解
噬菌体是一种能感染和杀死细菌的病毒,自1919年发现以来一直被很多人进行研究。但是,它们在20世纪40年代因发现可以治疗多种细菌的抗生素而被放弃。由于细菌对抗生素产生耐药性, 人类害怕前抗生素时代即将到来,噬菌体再次成为研究焦点。目前已经知道噬菌体PlyC在治疗链球菌(引起咽喉感染,心脏病,肺炎,中毒性休克综合征和热带皮肤感染的细菌)中非常有效。为了更好地理解PlyC,莫纳什的McGowan博士从PlyC溶液中生长出晶体,将它们放入澳大利亚同步加速器的蛋白质晶体学束线中,然后用X射线辐射轰击它们,最后将每个晶体的衍射图像数据集转移到MyTardis并归档。在此之前各种晶体学技术和计算机程序用于破解PlyC的结构都没有成功。2010年,McGowan博士和Asso.c Buckle教授利用MyTardis存档中的数据集和该校的高性能计算集群计算得到了Plyc的结构并得以了解它如何攻击细菌。该结构于2012年7月在美国国家科学院院刊上公布,原始数据和图像都可以通过MyTardis获得。
尽管昆士兰大学和莫纳什大学在e-Research合作研究上各不相同,但是e-Research的核心技术如高性能计算、数据管理、云计算、工作流等为提高两所学校的科研成果和研究质量起到了重要的作用。e-Research让研究人员和他们的学生获得一流的研究基础设施,并与世界领先的大学保持一致,也使得他们的科学研究在全球范围内获得认可。不仅是昆士兰和莫纳什两所大学,澳大利亚其他大学如悉尼大学、堪培拉大学、格里菲斯大学、维多利亚大学等都在积极制定e-Research策略,优先投资e-Research基础设施,以此来提高学校科学研究的强度、卓越性、影响力和声誉。澳大利亚现在每年举行两次e-Research会议,分享他们利用信息技术来加速研究的想法和范例,以及信息和通信技术如何帮助研究人员协作、收集、管理、共享、处理、分析、存储、发现、理解和重用信息。如今科学正在进入一个崭新的阶段,大数据、第四范式让跨学科、合作化以及全球化成为不可阻挡的趋势,e-Research研究方式将继续在澳大利亚开放协同的研究与创新模式中发挥其更大的作用。(责编:杨洁)(作者单位为兰州大学网络安全与信息化办公室)
本文刊载于《中国教育网络》8月刊