那些年我们在一线背锅的日子- 运维经理手记

文章目录

        • 前言
        • 自动化,可视化运维
        • 主动维护
          • 1. 定期巡检
          • 2. 系统日常优化
          • 3. 专项优化
        • 建立维护标准规程
        • 运维经理是个什么角色

前言

一个项目可能在你交付给甲方的时候就结束了,但对于运维来说,战斗才刚刚开始。
一套生产系统,只要甲方没有破产,又没有被其他系统所替代,也没有被竞争对手干掉,就要无休止的运行下去。
而你作为运维就需要手机24小时开机,每月初,月底通宵执行出账,节假日别人去了泰国,阿拉斯加,印度尼西亚,你也要在现场值守。

手机收到告警,第一时间处理;半夜出了故障,第一时间处理;甚至地震了你也要第一时间赶赴现场把信控停机程序停下来,等等。

运维的技术含量本身一点都不比开发低,而且技术在牛逼的大牛,比如微软研究院,谷歌,IBM大中华区或者全世界技术研发中心那些大牛们,专家们,设计出来的程序,在国内看来也是跟Linux和MySQL一样,千疮百孔,漏洞百出。

自动化,可视化运维

系统的运行维护不能只能人来盯着,老虎也有打盹的时候,所以运维方向开发出来的核心系统的保障系统,用来监控运行程序主机的CPU,内存,IO,日志文件,以及网络交换,中间件,各类进程的状态,设置相应的阈值告警。

其次是对业务指标的稽核和平衡性校验,在后来发展到自动检测,仿真检测,自动化日志分析,端到端的流量监控等技术。

目前市场上出现的,各种中台,日志监控,故障辅助检测告警,比比皆是。

将一套生产系统,用可视化的设备实时,直观的展示出来,能够准确的定位任何一个故障点,甚至能够自动处理。

运维经理的首要任务就是推动类似系统的建设与发展,尽量避免使用人工去干。

现阶段喊得最火的是AIOPS,我们把一些需要面对大量用户,大量同质化,简单化的问题,进行积累,形成智能问答,系统根据关键字索引自动推荐相似的答案,一旦用户采纳,就做好标记。 标记最多的答案排在自动回复的前位。

智能机器人的后台是企业版的知识库,降低操作人员的入职门槛。

主动维护

运维经理的任务之二是不要把系统全部寄托在自动化运维上

1. 定期巡检

包括晨检,日检,月检,每季度的巡检优化

2. 系统日常优化

每日抓取效率低下的SQL语句top10,增加完善网管的监控点,数据模型的生命周期管理,对部署,配置参数的不断调整,对平台软件,中间件的打补丁,升级。

3. 专项优化

每日的系统巡检数据,比如连续的故障,系统长期反应慢等,根据这些数据进行相应的专项优化。

建立维护标准规程

标准规程分为两类,一类是管理规程,一类是技术操作规程。

管理规程主要用来约束生产操作的纪律,工作处理的流程。 比如规定短信告警的处理时限,出现重大故障后的处理方法,报告顺序,生产系统的安全管理规范等。

技术操作规程主要是把各种生产操作的方法固化下来,形成规范,工序,标准。

运维经理是个什么角色

有人说运维经理是这样的:写的了PPT,看得懂招标书,上的了千人大堂,下得了小营业厅;懂得全局策略,细节毫不放松;各种业务门清儿,技术里外贯通; 研究过组织行为,治得了地痞流氓。

运维经理是个综合性的职业,需要你懂技术,懂业务,懂管理,三懂人才。

所以如果你想做个运维经理,前期一定要先把技术练好,把公司业务搞透,如此才有机会。

文章知识点与官方知识档案匹配,可进一步学习相关知识云原生入门技能树首页概览8665 人正在系统学习中

那些年我们在一线背锅的日子- 运维经理手记 微信名片 那些年我们在一线背锅的日子- 运维经理手记

来源:互联网老辛

声明:本站部分文章及图片转载于互联网,内容版权归原作者所有,如本站任何资料有侵权请您尽早请联系jinwei@zod.com.cn进行处理,非常感谢!

上一篇 2020年10月23日
下一篇 2020年10月23日

相关推荐