本地 IDC 中的 K8s 集群如何以 Serverless 方式使用云上计算资源

2023年 7月 25日 90.4k 0

作者:庄宇

在前一篇文章《应对突发流量,如何快速为自建 K8s 添加云上弹性能力》中,我们介绍了如何为 IDC 中 K8s 集群添加云上节点,应对业务流量的增长,通过多级弹性调度,灵活使用云上资源,并通过自动弹性伸缩,提高使用率,降低云上成本。

这种直接添加节点的方式,适合需要自定义配置节点(runtime,kubelet,NVIDIA 等),需要特定 ECS 实例规格等场景。同时,这种方式意味您需要自行维护云上节点池。

如果您不想维护云上节点池,您可以选择 Serverless 方式使用阿里云 ECI 弹性容器实例运行业务 Pod,更加高效弹性的使用云上 CPU/GPU 资源。

概述

通过 Serverless 方式使用云上计 CPU/GPU 资源,针对的问题依然是 IDC 中 K8s 集群的弹性能力不足,不能满足业务的快速增长、周期性业务增长和突发业务流量。

通过 Serverless 方式,可以在 K8s 集群直接提交业务 Pod,Pod 将使用阿里云 ECI 弹性容器实例运行,ECI 弹性容器实例启动速度快,与业务 Pod 的生命周期一致,按 Pod 运行时间计费。从而不需要为 IDC 中 K8s 集群创建云上节点,不需要规划云上资源容量,不需要等待 ECS 创建完成,实现了极致弹性,并节省了节点运维成本。

IDC 中 K8s 集群以 Serverless 方式使用云上 CPU/GPU 资源,适合以下业务场景:

  • 在线业务的波峰波谷弹性伸缩:如在线教育、电商等行业有着明显的波峰波谷计算特征。使用 Serverless ECI 可以显著减少固定资源池的维护,降低计算成本。
  • 数据计算:使用 Serverless ECI 承载 Spark、Presto、ArgoWorkflow 等计算场景,按 Pod 运行时间计费,有效降低计算成本。
  • CI/CD Pipeline:Jenkins、Gitlab-Runner。
  • Job 任务:定时任务、AI。

image

演示-IDC 中 K8s 集群以 Serverless 方式使用云上资源

1. 前提条件

已经通过 ACK One 注册机群接入 IDC 中 K8s 集群,参见《选对方法,K8s 多集群管理没那么难》。

2. 安装 ack-virtual-node 组件

通过 ACK One 注册集群控制台安装 ack-virtual-node 组件,安装组件后,通过注册集群 kubeconfig 查看集群节点池。virtual-kubelet 为虚拟节点,对接阿里云 Serverless ECI。

kubectl get node
NAME                               STATUS   ROLES    AGE    VERSION
iz8vb1xtnuu0ne6b58hvx0z            Ready    master   4d3h   v1.20.9   //IDC集群节点,示例只有1个master节点,同时也是worker节点,可以运行业务容器
virtual-kubelet-cn-zhangjiakou-a   Ready    agent    99s    v1.20.9。//安装ack-virtual-node组件生产的虚拟节点

3. 使用 Serverless ECI 运行 Pod(CPU/GPU 任务)

方式一: 配置 Pod 标签,为 Pod 添加标签 alibabacloud.com/eci=true,Pod 将以 Serverless ECI 方式运行。示例中,使用 GPU ECI 实例运行 CUDA 任务,您不需要安装配置 NVIDIA driver 和 runtime,真正做到 Serverless 化运行。

a. 提交 Pod,使用 Serverless ECI 运行。

> cat  kubectl logs gpu-pod
Using CUDA Device [0]: Tesla P100-PCIE-16GB
GPU Device has SM 6.0 compute capability
[Vector addition of 50000 elements]
Copy input data from the host memory to the CUDA device
CUDA kernel launch with 196 blocks of 256 threads
Copy output data from the CUDA device to the host memory
Test PASSED
Done

方式二: 设置命名空间标签

为命名空间设置标签 alibabacloud.com/eci=true,命名空间中所有新建 pod,将以 Serverless ECI 方式运行。

kubectl label namespace  alibabacloud.com/eci=true

4. 多级弹性调度

上面的演示中,我们通过设置 Pod 或者命名空间的标签以使用 Serverless ECI 运行 Pod。如果您期望应用运行过程中优先使用 IDC 中的节点资源运行 Pod,当 IDC 资源不足时,再使用阿里云 Serverless ECI 运行 Pod。您可以使用 ACK One 注册集群的多级弹性调度,通过安装 ack-co-scheduler 组件,您可以定义 ResourcePolicy CR 对象,使用多级弹性调度功能。

ResourcePolicy CR 是命名空间资源,重要参数解析:

  • selector:声明 ResourcePolicy 作用于同一命名空间下 label 上打了 key1=value1 的 Pod

  • strategy:调度策略选择,目前只支持 prefer

  • units:用户自定义的调度单元。应用扩容时,将按照 units 下资源的顺序选择资源运行;应用缩容时,将按照逆序进行缩容

    • resource:弹性资源的类型,目前支持 idc、ecs 和 eci 三种类型
    • nodeSelector:用 node 的 label 标识该调度单元下的节点,只对 ecs 资源生效
    • max:在该组资源最多部署多少个实例

步骤如下:

  • 定义 ResourcePolicy CR,优先使用 IDC 中集群资源,再使用云上 Serverless ECI 资源。
  • > cat

    相关文章

    KubeSphere 部署向量数据库 Milvus 实战指南
    探索 Kubernetes 持久化存储之 Longhorn 初窥门径
    征服 Docker 镜像访问限制!KubeSphere v3.4.1 成功部署全攻略
    那些年在 Terraform 上吃到的糖和踩过的坑
    无需 Kubernetes 测试 Kubernetes 网络实现
    Kubernetes v1.31 中的移除和主要变更

    发布评论