/ 中存储网

浅谈数据中心IT外包管理

2015-07-10 11:07:13 来源:腾讯数据中心

「开篇语」

记得十年前刚入行的时候,我们部门还叫管理工程部,数据中心Data Center已经存在了,不过那时我们都喊他机房,而我的主要工作就是做好我们租用的运营商机房内几十台服务器和几台交换机的运维工作。

慢慢的我们的业务越来越好,服务器数量乘以10(也就是几百台),我的工作除了做好这几百台服务器运维工作的同时,开始要考虑机房的规划和设计、建设。这时问题来了,我就一个人怎么会有时间做这么多事情?运营质量如何保证?效率如何保证?员工幸福感从何谈起……

出于这些运营中的思考,结合实际的成本,我们有了第一批有设备厂商提供的驻场工程师。他们的出现解放了当时的我们,为我们快速规模化的发展提供了有效的支撑。

又过了几年,服务器数量又乘以10(达到了几千至上万台),我的工作又增加了基础设施、运营商管理等等等,一两个人的驻场已经不难满足我们的需求了,于是更为专业的外包团队出现了……

该篇文章将以腾讯的IT外包的管理为基础,简单和大家探讨下数据中心Data Center的IT外包管理。

「名词解释」

外包是指企业动态地配置自身和其他企业的功能和服务,并利用企业外部的资源为企业内部的生产和经营服务。简单来说就是一部分通过外部引进将一部分专业资源快速解决人员不足的问题。该篇文章主要谈的是外包中的人事外包管理。

目前的我们的数据中心Data Center外包主要是针对于运维而言,分为基础设施外包和IT外包。其中基础设施外包主要是针对数据中心Data Center内风火水电的相关基础设施的运行和维护工作(如配电、UPS、精密空调、柴油发电机组等),IT外包主要是指IT设备的运行和维护工作(如服务器、交换机、存储等)。

「引」

随着互联网行业的快速发展,数据中心Data Center也呈规模性发展,相应的在其基础上的业务规模也呈海量发展,对人们日常生活的影响也越来越大。以腾讯为例,其拥有即时通讯活跃账户8.08亿个,最高同时在线1.8亿个;微信/wechat合并月活跃账户数达到3.55亿个;QQ空间月活跃账户数达到3.55亿个;每日发送通信信息数超过180亿条;每日上传图片3.60亿张……牵一发而动全局,在我们万级服务器节点的数据中心Data Center内,任何一点疏忽或者误操作都会对我们的设备乃至我们的用户造成巨大的影响,从而直接影响腾讯的服务水平和用户的口碑。

所以说,假设外包是我们通往解决日益扩大的数据中心Data Center道路上的一扇大门,那么外包管理就是打开这个大门的一把钥匙。如何在质量、效率、提升的维度上把这群人捏合成一个整体,就是我们主要需要面对的问题。

一个数据中心Data Center的生命周期分为规划、建设、交付、运营、裁撤,而我们的IT外包团队从交付末期开始进入。从合同签署完毕开始,我们会进行人员的筛选面试,通过外包供应商提供的名单做针对性面试,挑选出适合数据中心Data Center运营的工程师进行岗前培训、资产交接后就可以正式上岗了。

「人员面试」

数据中心Data Center的IT外包团队一般有3个岗位,我们把他们分别命名为资产管理员、网络工程师、服务器工程师。

按照人员能力不一样,我们一般会按照资产管理、网络、服务器三个岗位构建一个小型的人力模型,以责任心、专业能力、工作经验三个维度为标杆,通过HR、现场主管、现场笔试、数据中心Data Center经理这四轮面试进行综合评述,挑选出适合腾讯数据中心Data Center的外包工程师。

笔试题目示例

「岗前培训」

资产管理员负责数据中心Data Center现场和仓库的所有资产的管理,包括运营资产(如交换机、服务器等)、非运营资产(如服务器备件)、消耗品(如办公用品);网络工程师负责数据中心Data Center内涉及网络状态的相关运中心内涉及服务器故障的处理,如服务器故障的判断处理、系统部署的现场支撑等。

相应的,我们会准备一份独立于外包公司的新员工培训,或者称之为带训计划,由数据中心Data Center内的老员工指导他们更快地熟悉工作内容,适应腾讯数据中心Data Center体系的运维工作。我们按照资产、网络、服务器三个岗位分类,组织了约三十门和腾讯数据中心Data Center运营相关培训课程,并按照时间进度制定了一份带训计划表,2周完成,考核合格后可正式进入岗位。

此外,我们还会针对新进外包工程师的自身特点,安排一部分跨专业培训,提升他们的综合能力,以解决突发情况下的人力限制,并促进团队内良性竞争,提升团队运维水平(人力复用计划)。比如,一名网络工程师在进行服务器知识培训后,经过测试可以处理服务器故障,提升了运维效率的同时,自身也得到了提高。

我们做了一份调查,在一个数据中心Data Center内两名专职工程师(1个服务器工程师和1个网络工程师)和两名复用计划的工程师在处理同样的10个服务器故障或网络故障时,效率居然可以相差100%甚至更多(算法:每个故障按0.5小时计算,专职工程师处理20个故障需要10小时;复用的仅需5小时)。

培训文档示例

「效率提升」

数据中心Data Center内规模简单可以通过服务器数量进行估算,腾讯的中等规模数据中心Data Center(简称AC)和大型数据中心Data Center(简称DC)有几百至几万台服务器。假设一个3000台服务器的机房,我们会安排一名网络工程师和一名服务器工程师,按照每天1%的故障率,每个故障处理30分钟估算,光服务器故障处理就要花费5小时,还不包括为了处理这个故障所花费的沟通、判断、报障、等备件的时间……

那怎么解决呢?

解决方案一:增加人力(土豪优选)

优势——快速解决问题;劣势——成本会成倍增加

解决方案二:复用人力(屌丝优选)

优势——成本增加为0,人员充分利用,复合问题解决能力加强(单兵作战能力);劣势——突发情况的应对成问题

解决方案三:复用人力+SO计划运维(谁用谁知道)

优势——同解决方案二;劣势——暂无

亲们,看到这里,解决方案三无疑最适合大型数据中心Data Center的运营。它除了将人员做最大化的复用,使其不存在运维死角,并有充足的人员储备,还通过制定计划,将故障分类:一级故障即时处理,二三级故障进行判断后根据实际情况能合并的统一合并在下午特定时间段处理(厂商备件也可以到位),超过报障时间的自动滚入下一SO(非一级故障)。通过SO,保障了整体的运维时间可控,提升了团队积极性,避免了工程师反复折返机房到办公室,使其可以有更多的时间进行现场效率的优化和自身技能的提升。

「互助提升」

一个人的提升方法有很多,可以问人、可以自学、也可以找专业的培训机构……

那一个团队的提升方法呢?自学?问人?培训机构?当然可以,假设时间和经费充足的情况下。那有没有办法在经费不足、时间有限的情况下让整个团队能一起提升呢?

在过去条件不好的时候,家里假设来了重要客人没法招待,街坊邻居往往会伸出援手每家每户提供一两盘拿手菜……不仅问题得到解决还加强了邻里之间的凝聚力。

基于这个典故,我们也开展了类似百家宴的技术分享会,每个季度,每一个工程师可以在这个小型论坛上畅所欲言,展示自己的专业技能、自己新学的知识或者是工作中发现的问题以及解决方法等。尽管每个人时间不是很长,不过积少成多,每一次的分享都成了团队成员共同的知识,就像百家宴一样,不仅凝聚了人心,还让大家养成了自学、自律、勤观察的良好习惯,再加上会后的团建,分享已经脱离了会议的本质而是变成了一个快乐的日子,也间接提升了团队的战斗力。

「绩效考核」

团队的考核相信对每个管理者而言都是很困难的。

腾讯有专门的服务管理组,负责制定绩效方面的考核标准,如技术能力、响应时间、处理效率、投诉率等,结合外包商内部的考核计划,每半年对外包团队做综合考评,对优秀员工给予奖励,并在考核后对外包团队每位成员进行PDI(工作发展面谈)面谈,指出其不足,共同制定符合其发展目标的IDP(个人发展计划),并经常性review,确保其茁壮成长。假设达不到标准,我们一般会根据PDI结果制定的IDP进行review,假设仍然达不到将直接予以劝退。

除此之外,我们也会对有突出贡献的外包工程师给予书面表彰,根据贡献大小给予一部分实时激励。