对于运维工作的一些看法-大江小浪

今天写一篇心得体会，关于运维人员成长的话题。

运维这项工作，往往处于技术工作鄙视链的底端，也存在被一些人认为属于没什么技术含量的工作类型的意见和声音。我觉得随着现在IT基础设施规模越来越大，云化趋势越来越明显的情况下，运维工作也开始逐步与开发相融合，对于运维人员的要求也在不断的提高。

2008年我刚开始参加工作，到2012年之间做了四年的研发工作。从2012年之后，开始参与大型数据中心的运维工作，到今年也快要有十年的时间了。从事运维工作时间越久，越觉得这项工作有其重要的价值，越来越觉得从事运维这群人的可爱。对于希望提升自身职业发展的运维人员来说，我总结了三个方面的能力，如果在这三个方面做深做细，就一定能够做好运维工作。

要能发现故障在什么地方

做运维最重要的就是确保安全稳定运行，那么就需要能够随时掌握运行过程中发生的问题。

从小的方面来讲，如果做应用运维或者系统运维，当系统发生故障，诸如CPU使用率高、内存使用率高、系统不响应等，我们要熟练掌握系统性能查看的命令，能够定位到 计算、存储、网络 这三个方面具体是哪个方面存在问题。（参考 Linux操作系统监控与关键指标）定位问题的方法有很多，使用性能查看工具、查看日志等等。

从大的方面来讲，我们要跳出单机、单应用系统，从整个交易链路角度来考虑故障所处的节点，判断故障的影响范围，进一步为我们后续处置策略的选择提供依据。

要能知道故障怎么恢复

发生故障并不可怕，不能够快速恢复才可怕。

发生故障后，我们的策略是快速的收集现场信息，快速的恢复业务正常运行。这里就提到了两个能力，一个故障信息收集能力，一个快速恢复能力。

故障信息收集

应用运维、平台运维、网络运维不同领域的运维，收集故障信息的方法和手段不一样，但总体的思路却是相通的，例如应用运维收集故障信息主要依靠保留日志、保留内存现场数据等方式来实现，总的原则就是要保留尽可能多的现场信息。

这就要求我们平时注意积累保留现场信息的命令和方法，有保留现场信息的手段和工具。还要更深入的去了解我们所运维的对象都有哪些信息可供我们查询，有什么手段进行保留，平时不断的练习。

快速恢复能力

快速恢复是要快速恢复业务的正常运行，按照对业务影响的程度，依次推荐三种方式：切换、限流、重启。

有些能力需要对应的技术支持才行，如切换可能包括DNS切换、HA双机切换等。重启则是最后的手段，重启还分为应用重启、操作系统重启，可以根据情况选用。在这方面，随着我们运维经验丰富，可能会发现越来越多的快速恢复的能力，这些经验的总结对于下一步是非常重要的。

要能知道故障怎么避免

基于故障发现和故障恢复的不断重复迭代，我们能够积累足够的故障避免的手段和方法。

在系统建设期，完善高可用和故障恢复手段，支持负载均衡、流量切换、冷热切换、无损重启等多种手段，越是重要的系统在这方面开发的投入越要重视。同时，还要完善故障发现的渠道。除了传统的基础监控（CPU、内存、磁盘、网络）外，增加交易监控（业务成功率、响应时间）对于提前发现故障非常有帮助。

在系统运行期，熟练掌握监控工具、熟练掌握恢复手段，定期进行应急演练。定期关注容量情况，关注业务发展情况，做到未雨绸缪。

以上，是我对于运维工作的一些看法。

昨天刚观看了庆祝中国共产党成立一百周年庆典活动，总书记的讲话句句在理，应用到我们职业发展中也非常适用。从事运维工作，我们要看清楚过去成功的案例、弄明白未来怎样做才能继续成功，在个人学习和工作开展中要更加坚定，牢记初心使命、开创美好未来。

对于运维工作的一些看法

要能发现故障在什么地方

要能知道故障怎么恢复

故障信息收集

快速恢复能力

要能知道故障怎么避免

cocowool

友情链接