Prometheus
Queries
Monitoramento de cronjob no Kubernetes
sum by(namespace)(kube_cronjob_status_active{cronjob=~"clean-database.*"})Em resumo, eu filtro as cronjobs com status de ativa (executando) em X momento que batam com o nome daquele job e agrega isso com uma label em comum, nesse caso o namespace, para gerar uma unica metrica/valor.
Contar a quantidade de nodes no Kubernetes
count(kube_node_info)Validar alertas passados com base em filtros
sum by (alertname) (ALERTS{pod!~".*banana.*",alertstate!="pending",alertname!~"KubeHpaMaxedOut|DeadMansSwitch|TargetDown"})Validar todas metricas exportadas por um job
sum by(__name__)({job=~"node_exporter"})OOM por pod (onde for possivel identificar)
kube_pod_container_status_terminated_reason{reason="OOMKilled"} > 0