浙江大学:高校网络运维的综合防护之道 | 校园网
随着计算机技术的创新发展,网络信息技术被深入应用到各行各业。传统的教育系统逐渐演变成大数据背景下的电子信息化模式,应用涉及到校园生活的各个方面,例如教学科研、招生就业、学科交流、通讯办公、公共支撑服务等管理工作和沟通平台。从而形成了一个集相关软硬件设备于一体的综合性网络应用环境的计算机局域网,即高校校园网络。
目前浙江大学校园网络整体规模大、地域分布广,主要覆盖面积涉及7个校区、400多幢楼宇、约80公里环网光缆、在线计算机数量近10万台、合计师生职工超过7万人。
随着校园网络硬件设备规模的逐渐扩大,学校用户群体的增加,网络应用的层出不穷,硬件设施设备老化等原因,导致当前校园网络故障数量和类别不断增多。
因此在运维人员数量及精力有限的情况下,挖掘分析现有故障,总结故障原因及类型,采用新技术规范和简化处理故障的流程,来降低故障率,提高解决故障效率就显得尤为重要。本文结合浙江大学故障平台统计的数据,介绍在校园网络管理中遇到的问题,以及后续综合性的维护思路。
从浙江大学“网络运维管理平台”的统计数据显示,2016年信息技术中心监控呼叫平台综合服务热线共计接听电话约6万余次,其中咨询类占比79.37%,报送故障类占比20.61%,用户请求占比0.02%(用户请求主要涉及打印机连网问题),如图1所示。
咨询类占比最高,大部分问题通过一线的热线服务人员指导即可解决。但由于目前热线人员紧缺,遇到新生入学或大型视频会议等高峰用网时段,接听压力较大,因此合理利用知识手册指导用户自助解决问题,是非常有必要的。另外针对师生职工等报送的故障,浙江大学组织了一批有专业技术的二线维护队伍,以便上门解决故障报修。
接下来重点对咨询类和故障类问题进行详细分析,并给出系统化的解决方案和建议。
咨询类
通过对咨询类问题的整理分析,主要可以分为以下六大类,分别为网络咨询、信息化咨询、邮箱咨询、校园卡咨询、单位业务咨询和其他咨询。其中网络咨询占比最高,达到75.07%(主要包含网络服务套餐咨询、上网账号使用问题咨询等),信息化咨询占15.06%,如图2所示。
根据应用系统对咨询类问题进行统计分析,如图3所示。
浙江大学2016年全年服务工单中咨询类占比前十的服务类型,主要涉及VPN上网账号使用、统一身份认证相关、VPN服务套餐、有线网络、入校业务、无线网络、邮箱的办理使用、校园卡、电子离校单系统、虚拟主机业务咨询。其中VPN账号相关问题和统一身份认证问题总体占比最高。
故障类
同样统计分析故障类问题,故障类问题主要划分为8个方面,如图4所示,包含网络、邮箱、校园卡等,其中网络故障占比最高,达到总故障数的85.87%。
再针对占比最高的网络故障进行分析,统计出报送的网络故障中排名前十的情况,如图5所示。
其中设备端口故障主要是受到线路割接及链路影响,原设备上端口需要调整;设备供电故障主要是由于学校水电中心停电、机房空调漏水或者温度过高等导致;异常流量问题主要是由于进口信道故障,网络切割和主节点维护升级等造成。
维护方案
通过统计分析浙江大学网络运维中的问题,发现用户咨询类问题量很大,但具有一定的规律性;网络故障类问题相对咨询类较少,但存在多样性、复杂性以及专业性,仅靠信息化运维人员来解决问题是远远不够的。
因此建立合理的规章制度,借助网络监控平台,加强信息化人员的专业技能,同时改善用户的用网习惯等方法,可以很大程度上降低网络故障发生的频率,提升用户的满意度。
咨询类
从上文咨询类问题的统计数据可以看出,主要问题集中在VPN账号问题、统一身份认证、校园卡、电子离校单和邮箱等方面,这些使用方面的问题具有统一性和规范性,因此可以通过构建简明完善的信息化知识库来解决。
建立知识库,多渠道宣传校网知识
为了更好地服务于师生,目前浙江大学信息化运维团队整理出适合浙江大学实际用网情况的知识库,知识库具有如下特点:
(1)覆盖范围广
包含咨询类问题中占比较大的校园网的覆盖范围、有线网无线网的接入方式、VPN账号相关信息、邮箱故障解决方法等信息。同时整理出常见网络问题的解决处理方法,让师生能够自主判断和解决部分网络问题。
(2)从使用者角度出发,简明扼要
针对单位用户的需求,明确主机托管、虚拟主机、域名注册等服务所需的各种材料以及办理方式。
(3)及时维护,及时更新
知识库的完善不应止步,它需要根据当前网络的发展变化、用户的反馈信息等进行及时的更新。例如通过今年五月份的“比特币勒索病毒”事件,可增加开启计算机系统自动更新的操作步骤,关闭网络适配器设置和常见查杀病毒的流程等操作,提升用户用网的安全防范意识,提供快速解决突发网络问题的指导。
(4)多途径获取知识库信息
此外目前学校咨询类问题高峰期主要集中在新生入学的3月和9月,因此可以通过宣传来提高新用户对浙大网络的了解,掌握网络设置等基本的解决技能。例如将宣传单放置于各校区宿舍楼缴费前台,捆绑资料发放(网络基本知识,二维码公众号推广,信息技术中心联系方式等),或在新生报到处明显位置安排广告牌或易拉宝,引导新生直接扫码关注。同时定时定量地更新信息技术中心的微信公众号“浙江大学信息中心”,普及校网有线、无线、专网等的基本知识及基础问题解决办法,以及利用公众号进行快速报送故障等。
2
提升运维人员能力,加强技能培训
除了通过校园网络知识的归纳整理和宣传之外,目前学校成立了一支具有安全管理意识的专业技能一线维护团队。每月会针对团队成员进行相应的业务考核和培训,激励成员分享故障处理案例,通过案例还原的实际操作来提升其他运维人员的技能。例如:
通过命令行操作来分析和判定网络故障,“tracert”命令检查路由器端口路径设置;“ping”命令检查网络是否连通;“ipconfig”查看当前的TCP/IP配置的设置值等;
通过用户电脑提示来判断故障类别,例如任务栏电脑图标出现红叉、黄色叹号表示用户适配器或者网卡出现问题;
通过学校VPN客户端提示678错误、753错误等,判断用户IP地址等问题。因此提升运维人员处理故障的能力,进行技能培训,可以帮助运维人员更加快速定位用户问题,解决用户用网故障。
故障类
目前学校故障类问题主要通过二线运维团队上门服务来解决,他们通过专业的检测软件和设备来进行问题分析、问题定位以及提供后续的解决方案。从本文的图4、图5结合来看,故障类问题主要集中在网络方面、用户个人终端以及设备端口线路损坏等方面,这些故障可以通过监控软件来提前预警,同时加强VPN客户端的升级,以便全方位降低故障发生率。
建立网络监控,加强设备维护
目前浙大网络覆盖面积广、用户数量多,且个人终端仍在不断增加,导致网络监管非常困难。运维人员不能及时发现网络异常、端口报错、UPS供电不稳定和服务器I/O性能下降等常见问题,致使故障频发,用户上网受到严重影响。
软件层面,除了安装和启用最基本的系统自带网络监视器和性能监视器这两种实用性网络监控工具之外,更应该在系统架构的层面考虑网络监管。
在软硬件之上安装并启用专业的网络安全监控软件,例如Web应用防火墙(WAF)、基于主机层扫描的Nessus和应用层扫描软件Webscan,通过全局扫描和故障预警等功能及时发现服务器上部署的学校各系统出现的入侵攻击等危险行为。针对服务器上部署的应用系统记录日志、性能指标、错误提示等进行筛查,保证故障发生时能够快速定位发生时间及原因。此外在网络正常运营中,需定期对网络进行整体杀毒,制定相应的应急防护措施和网络隔离应对措施。
硬件层面,除自动防护外,部门运维人员需要对硬件进行定期维护,更换使用年限到期的设施设备。督促设备提供商按服务条款检修维护机器设备,查看负载均衡、网络链路冗余等,检查设备线路的连接配置、网线制作、电路连通响应等,同时关注机房的空调系统、消防系统、UPS电力系统的检修。在实际的工作中,有很大比例是由于硬件供电设备、硬件端口以及线路损坏导致的网络故障问题,因此设备的定期保养维护是非常重要的。
2
VPN客户端升级,指导用户用网
目前浙江大学网络用户均需要使用VPN客户端访问校外网络资源,用户可以根据校区和电脑系统自主选择下载WindowsXP/Windows2003/2007/2010或者MAC等版本的客户端,安装VPN客户端后,运行Connector.exe应用程序,使用校园账号和密码即可访问网络资源。目前VPN客户端提供不同版本供师生教工使用,故障报错方式较为简单,用户只能通过报修热线解决问题。因此后续可以针对VPN客户端进行改造升级,细化错误代码的提示、增加智能检测功能并将相关的步骤措施链接在上面,用户可以根据提示来进行设置,达到自助解决问题的效果。例如:
客户端不再单纯提示错误691,而是明确告之原因:(1)你已欠费,请尽快续费;(2)你的账号密码错误;(3)你的账号未激活;(4)你的账号被冻结。
如检测不到IP地址,则提示:你的IP地址未设置,请先设置IP,并附加各校区IP地址表以及设置IP地址的操作步骤。
如检测到DNS为非10.10.0.21时则提示:你的DNS设置有误,请先修改为10.10.0.21,并附带不同操作系统的DNS查找方式。
总结与展望
随着校园网络技术发展,承载的应用系统不断增加且用户规模也越来越大,网络故障的数量和种类也呈复杂性和多样化的变化趋势。根据本文所述的综合维护思路,要有效地防治校园网络故障,不仅需要开展日常的维护工作,更要让运维人员、用户和设备提供方三方共同参与进来,主动对网络进行全方位的监管维护,确保校园网络的安全运行。
(作者单位为浙江大学)
本文刊载于《中国教育网络》杂志2017年11月刊
【回顾】网络安全:挑战·策略·应急
【高校网安挑战篇】“三多三少”:网络安全工作的痛点 | 网络安全
【高校网安策略篇】关于网络安全不得不说的三个要点 | 网络安全
【高校网安策略篇】网络安全要善于“乘势”和“借势” | 网络安全