应该监控哪些Kubernetes健康指标

云运维 2023-07-09 贤蛋大眼萌手机阅读

Circonus最近对Kubernetes运营商进行的一项调查中，收集哪些健康状况指标是运营商面临的最大挑战之一。考虑到Kubernetes每天可以生成数百万个指标，这不足为奇。

在本文中，我们将分享哪些健康指标对于Kubernetes运营商最关键。

1. 资源和利用率指标

资源和利用率指标来自内置的metrics API，由Kubelets本身提供。大多数时候，我们仅将CPU使用情况用作健康状况的指标，但是监视内存使用情况和网络流量也很重要。

指标	名称	描述
CPU使用率	usageNanoCores	节点或Pod每秒使用的CPU核数。
CPU容量	capacity_cpu	节点上可用的CPU内核数量（不适用于Pod）。
内存使用情况	used{resource:memory,units:bytes}	节点或Pod使用的内存量（以字节为单位）。
内存容量	capacity_memory{units:bytes}	节点可用的内存容量（不适用于Pod），以字节为单位。
网络流量	rx{resource:network,units:bytes} tx{resource:network,units:bytes}	节点（或Pod）看到的总网络流量（已接收（传入）流量和已传输（传出）流量），以字节为单位。

CPU使用率是重要的健康状况指标，这是最容易理解的：你应该跟踪节点正在使用多少CPU。原因有两个。首先，你不希望耗尽应用程序的处理资源，如果你的应用程序受到CPU的限制，则需要增加CPU分配或向集群添加更多节点。其次，你不希望CPU闲置在那里。

2. 状态指标

kube-state-metrics是一个组件，可提供有关集群对象（node，pod，DaemonSet，namespaces等）状态的数据。

指标	名称	描述
节点状态	kube_node_status_condition {status:true,condition:OutOfDisk\| MemoryPressure\|PIDPressure\| DiskPressure\|NetworkUnavailable}	当status为true时，指示该节点当前正在经历该条件。
循环崩溃(Crash Loops)	kube_pod_container_status_waiting_reason {reason： CrashLoopBackOff}	指示pod中的容器是否正在发生循环崩溃。
任务状态（失败）	kube_job_status_failed	指示任务是否失败。
持久卷状态（失败）	kube_persistentvolume_status _phase {phase：Failed}	指示持久卷是否失败。
Pod状态（Pending）	kube_pod_status_phase{phase:Pending}	指示Pod是否处于挂起状态。
Deployment	kube_deployment_metadata _generation	代表Deployment的序列号。
Deployment	kube_deployment_status_observed_generation	代表控制器观察到的当前Deployment生成的序列号。
DaemonSet期望的节点数	kube_daemonset_status_ desired_number_scheduled	DaemonSet期望的节点数。
DaemonSet当前的节点数	kube_daemonset_status_ current_number_scheduled	DaemonSet运行中的节点数。
期望的StatefulSet副本	kube_statefulset_status_replicas	每个StatefulSet期望的副本数。
准备就绪的StatefulSet副本	kube_statefulset_status_replicas _ready	每个StatefulSet准备好的副本数。

使用这些度量标准，你应该对以下指标监视并发出警报：崩溃循环，磁盘压力，内存压力，PID压力，网络不可用，任务失败，持久卷失败，Pod挂起，Deployment故障，DaemonSets未准备好和StatefulSets未准备好。

3. 控制平面指标

Kubernetes控制平面包含Kubernetes的“系统组件”，可以帮助进行集群管理。在Google或Amazon提供的托管环境中，控制平面由云提供商管理，你通常不必担心监视这些指标。但是，如果你管理自己的集群，则需要了解如何监视控制平面。

指标	名称	描述
etcd集群是否有leader	etcd_server_has_leader	指示该成员是否知道其leader是谁。
etcd集群中leader变动总数	etcd_server_leader_changes_ seen_total	etcd集群中leader变更总数。
API延迟数	apiserver_request_latencies_count	API请求总数；用于计算每个请求的平均延迟。
API延迟总和	apiserver_request_latencies_sum	所有API请求持续时间的总和；用于计算每个请求的平均延迟。
队列等待时间	workqueue_queue_duration_ seconds	每个控制器管理器中的工作队列等待所花费的总时间。
队列持续时间	workqueue_work_duration_ seconds	每个控制器管理器中的工作队列处理操作所花费的总时间。
调度失败Pod的总尝试次数	scheduler_schedule_attempts _total {result：unschedulable}	调度程序尝试在节点上调度失败了Pod的总尝试次数。
Pod调度延迟	scheduler_e2e_scheduling_ delay_microseconds（ CPU Kubernetes 上一篇借助OPA实施Kubernetes的5大准入控制策略下一篇管理Kubernetes成本的5个基本技巧相关推荐微服务进阶之路容器落地避坑指南微服务架构相对于单体架构有很大的变化，也产生了一些新的设计模式，比如 sidecar，如何开发一个微服务应用是一件有很大挑战性的事情，我们经常会听到有人讨论如何划分微服务，多细的颗粒度才是微服务等问题。初学者经常会处于一个“忐忑不安”的状态，所以我们急需要知道如何才能走上正确的微服务道路，或者需要一些最佳实践指导我们如何设计、开发一个微服务应用。不骄不躁不跟风知己知彼方可百战不殆虽然现在已经云运维 2023-07-09 贤蛋大眼萌 containerd中文翻译系列(五)客户端选项 containerd 客户端的构建是为了方便用户进行扩展。我们的目标是，调用的执行流程在不同的实现中保持不变，同时编写 Opts 来扩展功能。为了实现这一目标，我们依赖于 Go 中的 Opts 模式。方法调用对于客户端软件包中的许多函数和方法，你通常会看到变量参数作为最后一个参数。如果我们查看客户端上的 NewContainer 方法，就会发现它有一个必要参数 id 和附加的 NewCo 云运维 2024-02-05 贤蛋大眼萌 SIG Node CI 子项目庆祝测试改进两周年作者： Sergey Kanzhelev (Google), Elana Hashman (Red Hat) 保证 SIG 节点上游代码的可靠性是一项持续的工作，需要许多贡献者在幕后付出大量努力。 Kubernetes、基础操作系统、容器运行时和测试基础架构的频繁发布，导致了一个复杂的矩阵，需要关注和稳定的投资来“保持灯火通明”。2020 年 5 月，Kubernetes Node 特殊兴趣小组云运维 2023-07-12 贤蛋大眼萌 KubeVirt with YRCloudFile 擦出创新的火花第一眼看到 KubeVirt 这个词，对技术有些了解的人基本都会知道，Kube 代表了 Kubernetes 容器化平台，而 Virt 则是以 OpenStack 为代表的虚拟化平台及虚拟化的缩写。近几年Kubernetes 的大热，相伴随的是 OpenStack 虚拟化平台的落寞，KubeVirt 的出现，似乎有一种重整旧山河，王者归来的霸气。前几年 Kubernetes 与 OpenStac 云运维 2023-07-09 贤蛋大眼萌 Kubernetes 中的证书我使用的是 Kubernetes 1.15.3 ，不同版本的处理方法可能会有不同。 1. 关于证书根证书是自签的根证书是由自己签发的。在浏览器中，内置了常见的证书服务商的 CA 证书。因此，浏览器才会信任这些证书服务商签发的下一级证书。我们也可以生成根证书，但是需要将根证书添加到系统信任证书列表中。这样，我们就可以给自己签发证书。证书是有层级的证书的签发是一条信任链。根 CA 签发子 CA 云运维 2023-01-04 贤蛋大眼萌站点声明：本站部分内容转载自网络，作品版权归原作者及来源网站所有，任何内容转载、商业用途等均须联系原作者并注明来源。相关侵权、举报、投诉及建议等，请发邮件至E-mail：service@mryunwei.com Copyright 每日运维浙ICP备2022017665号-3 基于WordPress \| 由七牛云提供 CDN 加速回到顶部