Prometheus
互联网的服务常依赖于成千上万的主机,而这些主机又部署在世界各地,再加上错综复杂的用户环境,要保证服务的稳定可靠,就需要对服务进行监控。监控的目的可以从这几个方面考虑:从系统维度,了解CPU、内存、硬盘使用情况;从网络监控维度,了解网络上行、下行速率;从服务监控维度,了解应用程序的健康性、可用性。当然,有了监控数据,还可以配置告警,通知维护人员、辅助排查故障问题。1. 监控开源工具 1.1 Nagi
你真的需要服务网格吗?
本文为翻译文章,点击查看原文。 “服务网格”是一个热点话题。似乎去年每一个与容器相关的大会都包含了一个“服务网格”议题,世界各地有影响力的业内人士都在谈论这项革命性的技术带来的好处。 然而,截至2019年初,服务网格技术仍不成熟。主要的实现产品Istio还没有准备好进行广泛的企业级部署,只有少数成功的案例运行在生产环境中。也存在其他的服务网格产品,但并没有得到业界专家所说的广泛关注。 我们如何协调
面向智算服务,构建可观测体系最佳实践
作者:蓟北 构建面向 AI、大数据、容器的可观测体系 (一)智算服务可观测概况 对于越来越火爆的人工智能领域来说,MLOps 是解决这一领域的系统工程,它结合了所有与机器学习相关的任务和流程,从数据管理、建模、持续部署的到运行时计算和资源管理。下图是开源 ML-Ops 平台 MLReef 在 2021 年发布的 ML 市场相关工具和平台玩家。时至今日,相关工具与平台玩家数量保持着持续高速增长。当前
Kubernetes 平台管理软件压力测试方案
Kubernetes 平台管理软件运行在 Kubernetes ,用于管理运行在 Kubernetes 上的资源对象。1. 测试思路测试在一定负载一定集群规模下,平台软件的管理能力,而不是 Kubernetes 的管理能力。平台软件的管理能力主要体现在能通过 UI 对负载、PV 进行增删改查,在 UI 上能够直接查看负载的监控和日志。明确测试内容和目的非常重要。测试对象不是 Kubernetes
ELK集成Azure Metrics实战
一 背景 在目前新版本中,ELK集成中利用elastic-agent可以真多非常的云及中间价进行相关指标采集,不仅仅限于日志,利用公有云的API可以调用监控数据,配合日志进行安全分析,可以更全面的展示云上的资源指标,本文介绍如何将ELK(Elasticsearch、Logstash和Kibana)与Azure Metrics集成,以实现对Azure资源的指标数据进行监控和分析。ELK是一个开源工具