DeepSpeed + Kubernetes 如何轻松落地大规模分布式训练
作者:刘霖 背景现状 随着 ChatGPT 的广泛应用,各种大规模语言模型层出不穷,其中包括 EleutherAI 推出的 200 亿参数的 GPT-NeoX-20B 和 BigScience 发布的 1760 亿参数的 Bloom 模型。 由于模型越来越大,单张 GPU 已无法加载整个模型,分布式模型训练成为了一种必然的趋势。在 GPT-NeoX 和 Bloom 的背后,DeepSpeed 框架
Nacos 荣获 GLCC 优秀社区,同时 2.3.0BETA 发布,欢迎试用
作者:Nacos 社区 新版本发布 经过 4 个多月社区的大量贡献,Nacos 2.3.0 版本终于进入的 Beta 发布阶段,在经历了 2.2.X 的多个安全风险修复的版本后,又一次迎来了功能性上的更新版本。 Nacos 反脆弱插件 2.2.0 版本加入 ALPHA 版本的反脆弱插件后,社区经过多次重构和修改,提升抽象度和稳定性,终于在 2.3.0 版本中正式公布了 Nacos 的反脆弱插件,用
Prometheus存储拓展
前言 Prometheus可以监控各种不同类型的应用、服务和基础设施。但是它自身也存在着一些瓶颈和问题,比如默认存储方案是使用内置的时序数据库TSDB进行数据存储,这在数据量、采集量偏大的时候往往是性能不够的。 Prometheus监控实现 数据类型 应用程序指标:程序的各种指标,比如请求处理时间、请求速率、错误率等。这些指标通常由程序本身的客户端暴露出来 系统指标:操作系统和服务器硬件的指标,如
Custom Controller 之 Informer
源码分析系列文章已经开源到github,地址如下: github: https://github.com/farmer-hutao/k8s-source-code-analysis gitbook: https://farmer-hutao.github.io/k8s-source-code-analysis ————————————————— 1. 概述 本节标题写的是 Informer,不过我
Kubernetes clientgo informer原理
Informer原理图 为了便于理解,先上两张图。 源码的调用流程图 可以对照着图中的代码文件及代码行数跟下代码。 注: 图中的代码行数基于1.15版。 informer 数据结构图 informer-data-structure Informer 工厂 先来看下cmd/kube-controller-manager/app/controllermanager.go:162的Run方法。 func