案例分享丨校级计算平台如何服务高校科研
除了基础支持服务外,让用户在使用计算平台时更加顺畅也很重要。为此,上交大提出一种学科融合的计算服务模式。
上海交通大学
调整组织结构
1973年,上海交通大学网络信息中心成立,至今已有47年的历史。中心成立之初的定位是为师生提供能够上网的基础环境,并提供技术服务。随着信息技术的不断发展,中心的定位从原来的信息提供转向能力输出,而如何让学校更多部门和科研团队使用服务及平台,是中心目前迫切需要解决的事情。为了实现该目标,2017年,中心组织架构进行了调整,下设三个部门和一个办公室。
1.基础业务部
将原来中心最核心的基础业务,如校园网、邮件、DNS等全部归化在该部门,其目标是能够让学校的师生随时、随地、随心地使用学校提供的各类基础技术服务。
2.计算业务部
从中心统计的2012~2018年的计算资源采购增长趋势可以发现,随着学校的业务发展需求不断提高,计算资源采购增长非常迅速,平均年增幅达到了14%,因此,中心决定将计算业务独立出来。
整个计算业务独立出来后,在超算平台之外提供云计算平台和人工智能平台,并将它们打造成统一的计算平台,从而满足学校各种各样的计算需求。这不仅仅局限于科研计算方面,也包括教学计算和管理计算的需求。
3.数据业务部
数据业务部的目标是结合大数据,为学校的决策提供支撑,把数据更好地利用起来。
4.综合办公室
综合办公室主要负责智慧党建引领和制度规范保障。
组织架构调整完成后,计算业务部和数据业务部在近两年取得了良好发展。计算业务部从过去的6人发展到25人,数据业务部从过去的10余人发展到35人。
校级计算平台发展的多个阶段
上海交通大学校级计算平台经过多年发展,可以分为如下几个阶段:分散建设若干个小平台,能够支持单个院系或课题组的计算需求;集中建设几个大平台,服务全校,管机器,开账号,提供系统运维;建设专职计算服务团队,提供计算优化服务,解决用户遇到的性能问题;在学科融合的服务模式中,由计算专员主动深入,在学科前沿研究领域发掘潜在的计算需求,如图1所示。
图1 校级计算平台发展阶段
1.第一阶段:院系分散建设
由于每一个院系都独立建设平台,计算资源难以共享、利用率低、规模较小;在机房环境方面,缺乏专用机房、供电缺乏保障、能耗故障率高。另外,更关键的是没有岗位编制,缺乏专业的运维人员,而且人员水平参差不齐,安全问题容易被忽视。
2.第二阶段:集中建设几大平台
为应对不同需求,网络信息中心首先建设三大计算平台:云计算平台、超算平台、AI平台,面向用户提供支持,如学生培养需求、云计算需求、数值计算需求及AI计算需求。
平台建设完成后,整体规模非常大。超算平台的CPU是Intel 6248,26000核,存储是10PB+300TB NVMe SSD;云平台的CPU是Intel 6148,12000核,存储是12PB+300TB NVMe SSD,同时配置了3TB大内存节点。云平台的定位是在支撑传统的信息管理需求之外,支撑一部分科研基本需求。随着深度学习的不断发展,用户需求日渐强烈,为此信息中心专门建立了人工智能集成平台,购买了8台DGX-2服务器。
目前,平台已经做到了学校的学科全覆盖,学校科研团队也开始利用计算平台的计算能力。例如,物理与天文学院陈民团队的激光尾波场模拟研究是要进行一个超大规模的计算,规模达到2万核。研究激光纵向啁啾对尾波场电子加速的影响,这项研究能够为激光尾波场加速的实验研究提供理论参考和技术支撑,为粒子束武器、空间辐射环境模拟等研究提供基础。计算结果显示,大规模测试(2万核)支持高精度模拟,观察到更精细结果。小规模测试(1792核)与天河二号进行对比,同等问题求解速度提升至2倍。
有了大平台的支撑,学校计算资源的采购增长出现明显变化。截至2019年10月底,计算资源采购额不到2018年的64%,全年预计不超过2018年的80%。
3.第三阶段:建设计算服务团队
目前,计算服务团队由三部分构成,系统运维8人,技术支持9人,学科支撑8人,共计25人。随着用户需求的不断提出,一些新功能的实现都是依靠这8个人的系统运维团队来负责和支撑。技术支持团队更多是利用自身计算机的背景去解决用户提出的需求。
在学科支撑上,密西根学院鲍华团队提出需求,他们要进行声子玻耳兹曼方程(BTE)大规模数据模拟,这项研究基于声子玻耳兹曼方程模拟介观尺度下的导热问题,是芯片散热等微纳尺度热输运问题的重要研究手段。计算服务团队协助将原有代码进行大规模并行化,在性能上提升1.8万倍,用时从2周缩短到2分钟。
电子信息与电气工程学院张文军团队关于二值化神经网络研究也提出了需求,即深度学习算法分析。二值化神经网络是指在浮点型神经网络的基础上,将其权重矩阵中权重值和各个激活函数值同时进行二值化得到的神经网络。计算服务团队利用GPU最新的硬件特性加速了原有代码,最终实现了66.3倍加速。
4.第四阶段:学科融合的计算服务模式
2018年起信息中心开始思考,除了基础支持服务外,能不能让用户在使用计算平台时更加顺畅。为此,提出一种学科融合的计算服务模式,其中的重点就是学科。科研用户主要负责研究、收集他们提出的新想法,然后设计基础程序;计算专员通过代码优化让它跑得更快,计算专员主要负责发掘需求和优化性能,如图2所示。
图2 学科融合的计算服务模式
以瑞金医院陈赛娟院士团队基因分析为例,其需求是复杂基因组分析流程优化。在前期合作中,信息中心协助瑞金医院开发既快又准的基因组分析流程,将分析时间从1周缩短到13小时,分析结果发表于2018年PNAS杂志。将计算流程平台化,将分析流程进行封装,变成一个可以一键使用的服务,极大降低了分析流程的使用门槛,让更多研究者和医学工作者获得高质量的分析结果,并有望成为临床数据分析的一个标准流程。
总之,校级计算平台的发展经历多个阶段,从分散建设到集中建设,再到性能优化和学科融合,未来还会有新的阶段需要上海交通大学网络信息中心进一步思考和探索!
(本文刊载于《中国教育网络》杂志2020年2-3月合刊,根据上海交通大学网络信息中心高级工程师罗萱在“中国教育和科研计算机网CERNET第二十六届学术年会暨会员代表大会云计算服务技术论坛”上的讲话整理)