那个没被云计算杀死的运维,转型了技术运营
如何形容传统运维的职业处境?
如果说的冠冕堂皇些:运维人员保障了企业业务的稳定性与安全性;
如果说的直白些:传统运维更像消防员,哪里起火救哪里。
若是仅仅如此,倒也还好。可如今,随着云计算产业的日益成熟, AIOps 、DevOps 理念的盛行,大量运维工作通过自动化运维和智能化运维实现,传统运维的生存空间愈发狭窄。
IDC 预测, IT 运维分析,即 AIOps 市场将从 2018 年的 29 亿美元增长到 2023 年的 45 亿美元,其中大部分增长来自“AIOps 即服务”。
按工作内容分,运维工作包括 IDC 运维、网络运维、桌面运维、系统运维、应用运维、运维开发、数据库运维,大数据运维等。其中工作内容相对简单的,比如 IDC 运维和网络运维、系统运维、数据库运维,最容易被 IAAS 和 AI 取代。
思变持恒。职业前景面临挑战的运维们唯一的出路是寻求转型,搏一搏也许还能挣得转机。考虑到技术趋势、运维的技术积累,基于云平台的技术运营也许是运维们的一个不错的转型方向。TGO 鲲鹏会北京会员熊昌伟有 12 年 SaaS 行业工作经验,这位 36 岁的运维专家、阿里云 MVP 就职于用友旗下成员企业畅捷通,任运维总监。他基于丰富的云平台研发、架构、运营经验,坚定从运维管理转型技术运营,从保障产品,转向通过运营技术提升产品价值。
给互联网带来巨变的云计算可以追溯到 2006 年,当时亚马逊推出 Elastic Compute Cloud (EC2),为用户提供虚拟计算机租赁服务,用户可以在上面运行他们的应用程序,EC2 正是 AWS 的核心。当时没有人想到,这样的虚拟计算机租赁服务会在日后成为亚马逊的重要业务。根据财报,AWS 2019 年营收 350 亿美元,占亚马逊整体营收一成以上。
AWS 快速发展,巨头纷纷布局。2008 年,谷歌发布 Google App Engine,日后发展成为 Google Cloud。2010 年,微软宣布进军云计算,推出 Microsoft Azure。至此,巨头齐聚云计算战场。
云计算让用户实现了按需购买 IT 资源,时间灵活,而且享有随意扩展的资源弹性。此外,云计算成为基础设施,让用户能够站在巨人的肩膀上,拉平了技术代沟。基于这些特点,云计算行业迅速崛起,被广泛采用。
2010 年,畅捷通开始采购混合云,到 2015 年全面转向公有云,同时进行了云原生模式的新一代产品研发。
与历史上所有前沿技术趋势一样,诞生之初的云计算,总会对一些旧有职业产生威胁,传统运维就是其中之一。艾瑞咨询在今年发布的《中国 IT 基础架构运维市场研究报告》中指出,由于与云计算基础设施相关的事件、日志、指标、告警等监控信 息需要云服务商来提供基础数据,云服务商开始介入到 IT 基础架构运维服务中,IT 运维行业市场规模缩小,根据艾瑞咨询,从 2016 年开始,中国 IT 基础架构运维服务市场增速呈逐年降低趋势。
“在这个过程中,我深刻的理解到,原有的运维模式将发生巨大的改变,很多我们大量消耗精力的地方,比如机器、网络稳定性,数据库高可用等,都不再需要过多的关注了 ,这样将释放出大量的‘剩余劳动力’,去思考如何‘驾驭’好云,‘运营’好业务,” 熊昌伟告诉 TGO 鲲鹏会。
他下定决心,从运维模式,转换为技术运营,实现反向技术赋能。
相比面向基础设施、维持稳定,技术运营主要面向业务,注重提升用户体验及业务经营效率,从人员能力建设以及考核指标都全面对标用户的体验与业务经营,比如从原来应用 SLA 的追求,到现在 MTTR、MTBF 与 Apdex 多维考核。
“运维人员主要关注产品稳定性,技术运营主要关注可用性、安全性、成本,只讲能用的产品是没有市场的。”
各大招聘网站对技术运营的岗位描述一般是,负责企业整体业务的技术支撑和服务。技术运营负责运维平台的设计及优化;根据产品整体定位帮助运维产品进行演进迭代,实现产品化和标准化;调研业务的运维、安全、效率、成本、质量,分析问题并诊断,提供解决方案;深入业务,通过技术优化产品提升客户体验。
“技术运营主要是通过整合资源、运营技术,赋能研发,使他们能够自助实现应用全生命周期的管理。我们更多的的发现整个生命周期中系统平台支撑的问题进行改进,实现业务状态的数字化,辅助管理业务运营过程中出现的突发状况。日常,我们对业务进行健康状态监控分析,出现致命问题时及时止损。“
熊昌伟所就职的畅捷通为小微企业提供财务及管理服务,包括财务管理方面的好会计、T+Cloud、易代账,进销存管理方面的好生意、T1 plus,人财货客一体化管理方面的 T+ & 工作圈、T6 等,增值数据分析方面的畅捷贷。
据介绍,畅捷通已经有累计 466 万家注册企业用户,畅捷贷已经帮助超过 2 万家小微企业通过软件中的财税数据申请纯信用贷款,2019 年为 1.45 万亿交易额提供管理服务。
熊昌伟面临的课题是,如何保证如此多用户的访问质量、以及先于用户发现问题。
他的解决途径是,用模型把业务数据或者感性数据数字化,用数字来规划业务的容量,保障业务的可靠运行。具体来说,对业务数据进行获取、表达、存储、传输、处理、交付,通过数字化提升解决问题、满足需求的效率。这样可以精细衡量业务表现和人效,比如每增加一个人,投入产出的变化能清楚看到。
同时,他在团队组织架构及职能方面,也做了相应调整:将 20 多人的团队分成 MSP 开发、OT 开发、DB、安全、品控几个小组。其中, MSP 指的是 Managed Service Provider,MSP 开发负责为对内和对外的客户提供一站式的云服务管理、运营平台,保障平台的高效、可靠运行,并完成面向客户的管理平台建设。OT 指 Operational, Technology,OT 开发负责用科学的流程与技术提升业务运营的层次,完成面向新一代云原生应用的可靠性管理系统建设,为公司数字化运营提供完整全面的业务数据分析呈现。
目前,熊昌伟一天的工作主要围绕公司所有产品的整体运行情况、发现和解决风险点、提升空间,寻找业务亮点。
他提到一个小故事,曾经有客服反馈一位客户单据丢失,希望找回,同时希望为客服部门做一个功能,以快速处理类似问题。这样的功能,如果按照传统的产品设计、开发、测试上线流程,需要两周才能完成开发。熊昌伟的团队了解后,一方面通过日志系统中的业务数据,快速定位到是客户的另一个操作导致的单据删除,回复客户;另一方面,通过服务化的方式,当天就为客服人员提供了自助查询功能。相比传统的救火式运维,技术运营的价值更丰富。
对个人而言,技术运营也正成为一个更受市场欢迎的岗位。根据科锐国际今年的报告,未来云计算市场规模仍将保持 20% 以上的增速,IT 企业对 “未来懂得最新云计算技术的运营人才需求激增”。
转型首先要解决的是,定位与心态。熊昌伟认为定位方面,要从保障转向服务,为公司、为业务的发展护航。技术运营要关注以下几点:
如何促进产品成熟?通过量化数字,真实、实时地反应出产品运行的状态——错误、响应时间、用户路径等——帮助研发和产品及时发现问题,调整产品功能和方向。
如何发挥技术的价值?运用好云的能力,避免低质量的重复造轮子,降低产品开发难度,避免基础组件给产品设计、研发带来困扰。达到技术所见即所得。
如何给用户带来感动?深入业务,通过技术手段,给客户带来超预期的使用与服务体验。比如:当出现使用问题时,系统能够识别客户端的使用问题,对于非通用性问题自动通知后台服务人员,对于通用性问题,自动弹出建议方案。
成为企业的另一个核心竞争力。通过自身能力的打磨,实现对内,对外的技术能力与系统平台输出,就像电商出身但现在成为 IaaS 供应商的亚马逊和阿里巴巴。
其次是能力。与所有工作岗位一样,技术运营在各个公司的定位大相径庭。熊昌伟介绍,在畅捷通,对技术运营的要求主要是两个方面。
第一,要懂技术,技术运营不创造技术,是技术的搬运工,要知道如何运用好云技术,避免踩坑,避免重复造轮子。另外,要学一些架构方面的知识和技能,运维要求对所负责领域精通,而技术运营要了解方方面面的知识,当然可能不用都特别深入。
第二,要会布道,很多的好技术要推广,要说服,让这些技术发挥出能量,创造出价值,这样才能正循环。
在具体工作中,运维转型技术运营要关注:
运营的数字化。运营数字化聚焦在故障的生命周期,从故障的发现、定位到处置操作,要做到感知的泛在化、认知的智能化和操作的无人化,即 AIOps 的落地。
能力的中台化。能力中台化是指在构建运维的平台,让可感知的网元,可编程的网元能力沉淀,运维能力显性化。
运维的研发化。让运维人员进行研发,人创造机器,再由机器取代人来做维护,这个落地就是 OpsDev,基于显性化的运维能力,各个专业领域都要自治。
组织的敏捷化。畅捷通打造了几大敏捷的组织,包括 GMC(全局监控)、SRE(应急保障)、BOE(业务准确性保障)以及 OPE(运维平台的开发)。这其中,SRE 是最重要的破局点,畅捷通组建了一个较大规模的 SRE 团队去开发和运维。
在实际工作中,技术运营要面临的另一个难题在于工作产出的衡量。运维更像灭火队,在问题出现的时候去解决,那么可以通过解决掉的问题来衡量工作价值,比如故障的发生率、应用的可用率。相比之下,技术运营需要发现隐患,在问题出现和爆发前就解决掉。熊昌伟建议,针对技术运营,可以通过发现的风险点数量、或者对于故障的定位解决速度的提升来考核其表现。
完成转型技术运营的标准是什么?
是否真正完成技术运营转型,主要看工作模式是否改变。不要简单重复三次同样的操作,必须时刻思考如何提炼出标准流程,固化到系统中。技术运营必须坚持“赋能”研发与业务,学习他们的工作模式,发现其中的不便与断层,做好胶水层,让各方业务流程通畅。最终,技术运营的精神思想与能力都能通过系统和平台交付出去。
特别提示