zabbix告警配置

更多文章请移步:www.yanjun.pro

1、告警工作流程

  • 告警概述

    告警是监控的重要职能,是指将达到某一阈值事件的消息发送给用户,让用户在事件发生后即可知道监控指标是否超过规定阈值,从而决定是否采取相关措施处理故障

  • 告警流程

    首先是触发器达到规定阈值,然后action对事件信息进行处理,一方面是给用户发送告警信息,另一方面是执行相关命令,达到对事件故障自动尝试恢复的效果

  • zabbix告警配置步骤

    • 配置trigger(触发器)
    • 配置用户
    • 配置告警方式
    • 配置action(动作)

2、告警触发器(trigger)配置

2.1、trigger的作用

trigger是一组逻辑条件表达式,用于item在其更新周期内所产生的数据与目标阈值是否相同。在zabbix-server首次启动过程中,会将host、template、trigger、items等数据全部加载到内存缓存中,因此zabbix-server进程在收到每个item所产生的数据后,会立即在缓存中查找该item是否配置有trigger表达式,如果配置有,则将trigger表达式的阈值与当前item的数据进行比较,若满足阈值,则判断当前item处于故障(problem)状态;若不满足阈值,则处于正常(OK)状态

2.2、trigger的故障等级定义

trigger故障等级分为 p0 ~ p5 六个等级

  • p0:灾难级别,该级别为重大故障,涉及到核心业务的正常运行
  • p1:危险级别,该级别为危险级别,涉及到应用的正常运行
  • p2:一般级别,对系统有影响,但不涉及致命危险的故障
  • p3:警告级别,可能对系统具有影响的故障
  • p4:信息级别:不影响系统正常运行状态的故障
  • p5:不通知:一般用于测试告警

2.3、trigger配置步骤

trigger配置步骤为:【configuration】 —> 【hosts】/【templates】 —> 【triggers】 —> 【create trigger】

配置action
  • Name:action名称

  • Conditions:匹配条件,zabbix支持的匹配条件如下:

    • trigger name
    • trigger
    • trigger severity
    • application
    • host
    • host group
    • problem is suppressed
    • tag name
    • tag value
    • temple
    • time priod

    各匹配条件都支持逻辑运算符

  • enabled:是否启用该action

4、告警处理措施

详细配置,请参考官方文档

4.1、告警处理措施的类型

  • 发送消息:将故障信息通过指定媒体发送出去
  • 执行远程命令:通过脚本处理故障

4.2、配置告警处理措施

【configuration】 —> 【action】 —> 【create action】 —> “Operations”

Operations(措施细节配置)
  • Operation type:措施类型
    • send message:发送信息
    • remote command:远程执行命令
  • Steps:步骤,一个告警发送多次
  • Step duration:每个步骤间隔时间
  • Send to user groups:接受告警的用户组
  • Send to users:接受告警的用户
  • Send only to:告警发送方式,可以选择一种,也可以选”all”,如果用户配置了多种告警接收方式,当配置为”all“时,用户可以以多种方式接收同一个告警
  • Custom message:自定义告警信息
  • Conditions:可以配置用户在确认后不再继续发送信息

5、配置Email告警

  • 配置media类型
    【Administration】 —> 【Media types】 —> 【create media types】

    用户列表

    配置media

来源:www.yanjun.pro

声明:本站部分文章及图片转载于互联网,内容版权归原作者所有,如本站任何资料有侵权请您尽早请联系jinwei@zod.com.cn进行处理,非常感谢!

上一篇 2021年7月4日
下一篇 2021年7月4日

相关推荐