对接alertmanager创建钉钉卡片(1)很多时候,依靠通过alertmanager的标签来进行分组将不同的警报发送到不同的人,亦或者拉起一个群来接收一条关键的警告。在大多数时候,我门希望能够减少告警疲劳。要完成这样的动作,至少需要简化告警条目,优化阈值数值。其次针对告警信息进行合并,对于告警和恢复进行统计。 我们处理的是alertmanager的告警通知,主要的功能如下: 1,忽略不必要的警报2,通过回调,人员领取警报并记录3,沉默警报 自动化运维 2024-01-23 LOVEHL^ˇ^
手把手教你搭建OpenFalcon监控系统引言 作为一名Linux和Python技术持续学习者,要求我们不仅能够熟练操作Linux系统,还要能够搭建起强大的运维监控系统。本文将为大家详细介绍如何使用OpenFalcon搭建一个全面、实用的监控系统,让你的运维工作更高效、更稳定! 要求环境 至少两台运行Linux操作系统的服务器,一台作为OpenFalcon服务端,一台作为Agent客户端 安装MySQL和Redis等服务依赖 下载并安装O 自动化运维 2023-08-27 Rishabh
无需任何魔法即可使用 Ansible 的神奇变量“hostvars”首先,一些基本的定义和规则: 在Ansible中,有一组保留变量,称为魔术 变量。由于它们是保留的,因此用户无法设置它们,如果尝试设置,Ansible 将覆盖它们。 本文特别关注一个神奇变量: hostvars,它可以在 playbook 运行的任何时刻访问为 play 中的任何主机定义的变量。 大多数 Ansible 用户都知道清单可能包含分配给特定主机的其他变量。有时,在 playbook 自动化运维 2023-08-27 terrell
openobseve HA本地单集群模式ha默认就不支持本地存储了,集群模式下openobseve会运行多个节点,每个节点都是无状态的,数据存储在对象存储中,元数据在etcd中,因此理论上openobseve可以随时进行水平扩容 组件如下: router:处理数据写入和页面查询,作为路由 etcd: 存储用户信息,函数,规则,元数据等 s3: 数据本身 querier: 数据查询 ingester: 数据没有在被写入到s3中之前,数据会 自动化运维 2023-08-26 醒在深海的猫
基于k8s上loggie/vector/openobserve日志收集在上次的日志收集组件变化中简单的介绍了新方案,通常要么基于K8s收集容器的标准输出,要么收集文件。我们尝试使用最新的方式进行配置日志收集的组合进行测试,如下: 但是,在开始之前,我们需要部署kafka,zookeeper和kowl 1.kafka 修改kafka的ip地址 version: "2" services: zookeeper: container_name: zookeeper ima 自动化运维 2023-08-21 法医
openobseve单节点和查询语法OpenObserve声称可以比Elasticsearch 它⼤约可以节省 140 倍的存储成本,同时由Rust开发的可观测性平台(⽇志、指标、追踪),它可以进行日志搜索,基于sql查询语句和搜索的日志关键字的上下周围数据,高压缩比的存储,身份验证和多租户,支持S3,miniio的高可用和集群,并且兼容elasticsearch的摄取,搜索,聚合api,计划报警和实时报警等功能。 如果只是对日志搜 自动化运维 2023-08-21 Escape
2023 年需要学习和掌握的 30 个最佳 DevOps 工具:Git、Docker 等虽然DevOps是一种文化,但正确的工具堆栈使得成功实施 DevOps 成为可能。DevOps 方法的核心,也许也是最引人注目的概念是软件开发和运营团队之间的协作。同样重要的是,DevOps 方法强调软件开发流程的自动化,例如构建、测试、事件检测和响应、发布等,以实现更快的上市时间、高质量的产品并减少故障和回滚软件/软件功能。然而,如今的 DevOps 不仅仅是一种协作文化和软件开发自动化。它集成 自动化运维 2023-08-15 泡泡
日志收集的悄然变化日志收集短期发展史 日志的查看和告警是日志收集最核心的两个原因之一,通常99%的日志都是无用的,除非这些日志被用来做数据聚合环比数据分析。而传统的ELK,无论是Logstash还是ES都是非常消耗系统资源的应用,大规模场景中,要即时消费kafka的数据是一件不太容易的事情。 观测性 我们知道,现在的大多数应用皆是分布式或者微服务。微服务架构是让开发人员能够更快构建和发布,而随着服务进一步扩张,我们 自动化运维 2023-08-13 大树
vector与alertmanager的调试日志警报日志告警一直都是一个无法回避的问题,无论是在什么时候,能够掌握程序日志的报错信息是有利于早期发现并定位问题。 而在过去,常用手段可以通过logstash的if判断进行正则匹配,或者通过第三方工具读取ES,再或者通过grafan来进行触发 而在阿里云或者腾讯云中同样也具备日志过滤,并且自带多级处理。 而在传统的ELK中,fluentd也是可以承担这个任务,而在新兴的开源软件中,以上逐渐被慢慢剥离。取 自动化运维 2023-08-10 三掌柜
企业级日志收集系统——ELKstack1.ELKstack简介 ELKstack 是 Elasticsearch、Logstash、Kibana 三个开源软件的组合而成,形成一款强大的实时日志收集展示系统。 各组件作用如下: Logstash:日志收集工具,可以从本地磁盘,网络服务(自己监听端口,接受用户日志),消息队列中收集各种各样的日志,然后进行过滤分析,并将日志输入到Elasticsearch中。 Elasticsearch:日 自动化运维 2023-07-16 Escape
自己写脚本实现zabbix报警升级需求: 公司的程序需要在后台跑一些脚本,有shell有php,需要持续不断的运行,如果脚本中断运行,需要自动启动,如果启动失败就发邮件/短信报警。 我们的监控是使用zabbix来做的,zabbix监控脚本后台运行和报警实现起来非常爽;但是做故障恢复就非常不爽了,谁用谁知道。下面我分享下我故障恢复是如何做的。 公司以前的监控方案 先说下我们之前的zabbix监控后台脚本是如何做的。然后在拿出改进后的 自动化运维 2023-07-16 大猫
pyenv环境配置操作系统环境: Centos7.1 64位 1.Pyenv介绍 Pyenv用于同时管理多个python版本,它可为每个工作目录设定使用指定的python版本,例如切换到$HOME/first_project,其使用的python版本为2.7.9;而切换进入$HOME/second_project,其使用的python版本可自动变换为3.4.3。 Pyenv的git仓库: https://githu 自动化运维 2023-07-16 剑圣无痕
jmeter实现api自动化测试1.介绍 文章介绍了通过jmeter事先录制api脚本,然后使用ant进行编译,最后生成html的接口测试报告,并且通过web展示。 这种测试主要应用于持续集成环境中,在运维部署代码完成之后,迅速对所有接口或者部分接口(录制一些过程,比如登录,购物)进行测试,测试完成之后把html的测试报告访问地址以邮件的形式发送给相关人员。 2.环境安装 (1)安装java tar xf jdk-8u65-li 自动化运维 2023-07-16 泡泡
使用shell实现php代码自动发布前言 在中小企业如果需要实现代码的自动化部署,99%以上公司不会开发什么自动化部署回滚平台的,这个时候就需要运维人员通过shell+开源软件比如jenkins来实现代码的自动化部署以及回滚。这里分享下我使用shell写的一个php代码自动部署脚本。大神勿喷。 脚本适应环境: 1、操作系统:centos 6.5 64位 2、代码使用gitlab进行管理 3、代码每次上线和回滚通过tag控制 补充:如 自动化运维 2023-07-16 三掌柜
使用shell脚本实现java灰度发布前言 在中小企业如果需要实现代码的自动化部署,99%以上公司不会开发什么自动化部署回滚平台的,这个时候就需要运维人员通过shell+开源软件比如jenkins来实现代码的自动化部署以及回滚。这里分享下我使用shell写的一个java代码自动部署脚本。大神勿喷。 脚本使用环境: 1、操作系统:centos 6.5 64位 2、代码使用gitlab进行管理 3、代码每次上线通过tag控制 4、前端使用 自动化运维 2023-07-16 三掌柜
安卓自动化打包(基于gradle)1.前言 工作关系,需要做安卓环境的自动打包,领导要求公司产品、测试、开发等小伙伴每天来上班之前,可以在指定位置下载开发,测试,生产环境最新的安卓版本安装包,可以每日验证产品开发进度以及及时反馈开发功能的方向是否正确。 博文说明: 由于我们公司的产品是通过gradle实现的编译打包,所以本文介绍的是gradle的环境。具体你们公司安卓是通过什么工具编译打包的,需要和你们开发进行沟通。 安卓打包需要 自动化运维 2023-07-16 法医
IOS自动打包记录IOS打包踩的坑 搞了一周,终于搞定了IOS自动打包,记录一下。 IOS打包的过程其实非常简单,整个打包过程也就三条命令(清理,编译,打包),但是由于之前有安卓打包的经验,在IOS打包的初期就按照安卓打包的方式来进行,导致走了很多弯路,这里说一下IOS打包遇到的一些坑。 (1)操作系统版本还有Xcode版本,保持和IOS开发人员版本一致,或者高于他们,但是不能低。 (2)IOS需要用到的证书比较多 自动化运维 2023-07-16 大白菜程序猿
jenkins介绍部署及三种构建方式配置1.前言 1.1.jenkins介绍 jenkins是基于java开发的一种持续集成工具,用于监控持续重复的工作,功能包括。 1、持续的软件版本发布/测试 2、监控外部调用执行项目 Jenkins其实很早之前就有了,最近火起来的原因是,大家都在关注devops,关注如何来做持续集成,持续交付,如何来做CI/CD。Jenkins作为持续集成的工具,他其实只是一个平台或者是一个大的框架,它的工作完全就 自动化运维 2023-07-16 贤蛋大眼萌
基于cobbler的自动化安装实践1.Cobbler介绍 Cobbler可以通过网络快速安装/重装操作系统,如果说pxe+kickstart安装操作系统是大专水平,那么cobbler就是小学生难度。 Cobbler优点如下: (1) 可以提供多个操作系统的安装,比如在安装是可以选择Centos6,还是Centos7。 (2) Cobbler客户端koan支持虚拟机安装和操作系统重新安装。 (3) 在DHCP配置文件中为需要安装的机 自动化运维 2023-07-16 张二河
每日打包之自动化安装(打通app自动化测试)1.前言 我们前段时间实现了安卓和ios的自动打包,可以每天把最新的代码制作成安装包,放到下载目录,让产品,测试等人员进行下载,以便每日验证产品开发进度以及及时反馈开发功能的方向是否正确。 但是这样新的问题出现了,实现每日打包之后,那就意味着测试、产品等人员每天都需要删除旧的软件包,重新安装新的软件包,整个过程还是比较烦得,那么能不能实现每天自动化安装打出来的包到手机上呢?答案是当然可以的,而且这 自动化运维 2023-07-16 捡田螺的小男孩