今天写一篇心得体会,关于运维人员成长的话题。
运维这项工作,往往处于技术工作鄙视链的底端,也存在被一些人认为属于没什么技术含量的工作类型的意见和声音。我觉得随着现在IT基础设施规模越来越大,云化趋势越来越明显的情况下,运维工作也开始逐步与开发相融合,对于运维人员的要求也在不断的提高。
2008年我刚开始参加工作,到2012年之间做了四年的研发工作。从2012年之后,开始参与大型数据中心的运维工作,到今年也快要有十年的时间了。从事运维工作时间越久,越觉得这项工作有其重要的价值,越来越觉得从事运维这群人的可爱。对于希望提升自身职业发展的运维人员来说,我总结了三个方面的能力,如果在这三个方面做深做细,就一定能够做好运维工作。
要能发现故障在什么地方
做运维最重要的就是确保安全稳定运行,那么就需要能够随时掌握运行过程中发生的问题。
从小的方面来讲,如果做应用运维或者系统运维,当系统发生故障,诸如CPU使用率高、内存使用率高、系统不响应等,我们要熟练掌握系统性能查看的命令,能够定位到 计算、存储、网络 这三个方面具体是哪个方面存在问题。(参考 Linux操作系统监控与关键指标)定位问题的方法有很多,使用性能查看工具、查看日志等等。
从大的方面来讲,我们要跳出单机、单应用系统,从整个交易链路角度来考虑故障所处的节点,判断故障的影响范围,进一步为我们后续处置策略的选择提供依据。
要能知道故障怎么恢复
发生故障并不可怕,不能够快速恢复才可怕。
发生故障后,我们的策略是快速的收集现场信息,快速的恢复业务正常运行。这里就提到了两个能力,一个故障信息收集能力,一个快速恢复能力。
故障信息收集
应用运维、平台运维、网络运维不同领域的运维,收集故障信息的方法和手段不一样,但总体的思路却是相通的,例如应用运维收集故障信息主要依靠保留日志、保留内存现场数据等方式来实现,总的原则就是要保留尽可能多的现场信息。
这就要求我们平时注意积累保留现场信息的命令和方法,有保留现场信息的手段和工具。还要更深入的去了解我们所运维的对象都有哪些信息可供我们查询,有什么手段进行保留,平时不断的练习。
快速恢复能力
快速恢复是要快速恢复业务的正常运行,按照对业务影响的程度,依次推荐三种方式:切换、限流、重启。
有些能力需要对应的技术支持才行,如切换可能包括DNS切换、HA双机切换等。重启则是最后的手段,重启还分为应用重启、操作系统重启,可以根据情况选用。在这方面,随着我们运维经验丰富,可能会发现越来越多的快速恢复的能力,这些经验的总结对于下一步是非常重要的。
要能知道故障怎么避免
基于故障发现和故障恢复的不断重复迭代,我们能够积累足够的故障避免的手段和方法。
在系统建设期,完善高可用和故障恢复手段,支持负载均衡、流量切换、冷热切换、无损重启等多种手段,越是重要的系统在这方面开发的投入越要重视。同时,还要完善故障发现的渠道。除了传统的基础监控(CPU、内存、磁盘、网络)外,增加交易监控(业务成功率、响应时间)对于提前发现故障非常有帮助。
在系统运行期,熟练掌握监控工具、熟练掌握恢复手段,定期进行应急演练。定期关注容量情况,关注业务发展情况,做到未雨绸缪。
以上,是我对于运维工作的一些看法。
昨天刚观看了庆祝中国共产党成立一百周年庆典活动,总书记的讲话句句在理,应用到我们职业发展中也非常适用。从事运维工作,我们要看清楚过去成功的案例、弄明白未来怎样做才能继续成功,在个人学习和工作开展中要更加坚定,牢记初心使命、开创美好未来。