实用干货丨如何使用Prometheus配置自定义告警规则

前言

Prometheus是一个用于监控和告警的开源系统。一开始由Soundcloud开发，后来在2016年，它迁移到CNCF并且称为Kubernetes之后最流行的项目之一。从整个Linux服务器到stand-alone web服务器、数据库服务或一个单独的进程，它都能监控。在Prometheus术语中，它所监控的事物称为目标（Target）。每个目标单元被称为指标（metric）。它以设置好的时间间隔通过http抓取目标，以收集指标并将数据放置在其时序数据库（Time Series Database）中。你可以使用PromQL查询语言查询相关target的指标。

以下是与本文相关的术语，大家可以快速了解：

Prometheus Server：在时序数据库中抓取和存储指标的主要组件

抓取：一种拉取方法以获取指标。它通常以10-60秒的时间间隔抓取。

Target：检索数据的server客户端
服务发现：启用Prometheus，使其能够识别它需要监控的应用程序并在动态环境中拉取指标
Alert Manager：负责处理警报的组件（包括silencing、inhibition、聚合告警信息，并通过邮件、PagerDuty、Slack等方式发送告警通知）。
数据可视化：抓取的数据存储在本地存储中，并使用PromQL直接查询，或通过Grafana dashboard查看。

理解Prometheus Operator

根据Prometheus Operator的项目所有者CoreOS称，Prometheus Operator可以配置原生Kubernetes并且可以管理和操作Prometheus和Alertmanager集群。

该Operator引入了以下Kubernetes自定义资源定义（CRDs）：Prometheus、ServiceMonitor、PrometheusRule和Alertmanager。如果你想了解更多内容可以访问链接：

https://github.com/coreos/prometheus-operator/blob/master/Documentation/design.md

在我们的演示中，我们将使用PrometheusRule来定义自定义规则。

首先，我们需要使用 stable/prometheus-operator Helm chart来安装Prometheus Operator，下载链接：

https://github.com/helm/charts/tree/master/stable/prometheus-operator

默认安装程序将会部署以下组件：prometheus-operator、prometheus、alertmanager、node-exporter、kube-state-metrics以及grafana。默认状态下，Prometheus将会抓取Kubernetes的主要组件：kube-apiserver、kube-controller-manager以及etcd。

安装Prometheus软件

前期准备

要顺利执行此次demo，你需要准备以下内容：

一个Google Cloud Platform账号（免费套餐即可）。其他任意云也可以
Rancher v2.3.5（发布文章时的最新版本）
运行在GKE（版本1.15.9-gke.12.）上的Kubernetes集群（使用EKS或AKS也可以）
在计算机上安装好Helm binary

启动一个Rancher实例

直接按照这一直观的入门指南进行操作即可：

https://rancher.com/quick-start

使用Rancher部署一个GKE集群

使用Rancher来设置和配置你的Kubernetes集群：

https://rancher.com/docs/rancher/v2.x/en/cluster-provisioning/hosted-kubernetes-clusters/gke/

部署完成后，并且为kubeconfig文件配置了适当的credential和端点信息，就可以使用kubectl指向该特定集群。

部署Prometheus 软件

首先，检查一下我们所运行的Helm版本

当我们使用Helm 3时，我们需要添加一个stable 镜像仓库，因为默认状态下不会设置该仓库。

Helm配置完成后，我们可以开始安装

规则

除了监控之外，Prometheus还让我们创建触发告警的规则。这些规则基于Prometheus的表达式语言。只要满足条件，就会触发告警并将其发送到Alertmanager。之后，我们会看到规则的具体形式。

我们回到demo。Helm完成部署之后，我们可以检查已经创建了什么pod：

为了从web浏览器中访问Prometheus和Alertmanager，我们需要使用port转发。

由于本例中使用的是GCP实例，并且所有的kubectl命令都从该实例运行，因此我们使用实例的外部IP地址访问资源。

我们也可以检查位于prometheus容器中prometheus-operator Pod中的物理文件。

在容器中，我们可以检查规则的存储路径：

为了详细了解如何将这些规则加载到Prometheus中，请检查Pod的详细信息。我们可以看到用于prometheus容器的配置文件是。该配置文件向我们展示了文件的位置或重新检查yaml的频率设置。

完整命令输出如下：

来源：Rancher by SUSE

声明：本站部分文章及图片转载于互联网，内容版权归原作者所有，如本站任何资料有侵权请您尽早请联系jinwei@zod.com.cn进行处理,非常感谢！

实用干货丨如何使用Prometheus配置自定义告警规则

前 言

理解Prometheus Operator

安装Prometheus软件

规 则

相关推荐

前言

规则