华为云云原生FinOps解决方案，释放云原生最大价值-每日运维

华为云云原生FinOps通过可视化的成本洞察和成本优化，帮助用户精细用云以提升单位成本的资源利用率，实现降本增效目标

企业上云现状：上云趋势持续加深，但云上开支存在显著浪费

根据Flexer 2024年最新的一项调查显示，当前有超过70%的企业重度使用云服务，而这个数据去年是65%。由此可见，越来越多的企业开始把业务部署在云上。企业在使用云厂商提供的云服务的同时，也在为云服务的花费买单。调查显示，平均大约有30%的云成本支出被认为是无效支出。如何节省云成本支出成为近几年上云企业最关心的Top1问题。

企业云原生化逐步深入，成本治理依然存在挑战

云原生技术当前已经成为很多企业进行数字化转型的主流方式。kubernetes提供的资源共享、资源隔离、弹性调度等能力，本身能够帮助企业提升资源使用率，降低企业IT成本。然而，2021年CNCF《FinOps Kubernetes Report》的调研报告显示，迁移至Kubernetes平台后，68%的受访者表示所在企业计算资源成本有所增加，36%的受访者表示成本飙升超过20%。其背后的原因值得深思。

云原生时代成本治理面对的挑战

云原生时代成本治理有四个矛盾点：

**业务单元 VS 计费单元：**一般云服务（比如ECS）的计费周期比较长，可能是包月或者包年；而云原生容器的生命周期相对比较短暂，容器的弹性伸缩、故障重启等动作，都有可能导致资源的闲置率比较高。

**容量规划 VS 资源供给：**容量规划一般是静态的，一般是按照预算或者规划提前准备容器，而资源供给是业务来驱动。业务的高峰流量冲击，升级扩容等场景，都会对容量规划造成很大的挑战。

**统一治理 VS 多云部署：**现在很多企业使用了不止一朵云，不同的云厂商的账单接口和格式都不一样，不利于企业的多云统一成本治理。

**成本模型 VS 云原生架构：**云厂商的成本模型相对比较简单，一般是按照物理资源来计费，比如ECS服务是以整机的价格来计费。云原生架构以应用为中心，资源的申请细化到CPU/内存等粒度。这就导致云原生场景成本可视化和成本分析比较困难。

总结下来，云原生成本治理面临三大挑战：

**成本洞察：**云原生场景如何实现成本可视化，如何快速定位成本问题、识别资源浪费？

**成本优化：**云原生成本优化的手段很多，如何采用合适的成本优化手段来实现收益最大化？

**成本运营：**企业如何构建可持续的成本治理体系与文化？

华为云云原生FinOps解决方案

FinOps 是一门将财务管理原则与云工程和运营相结合的学科，它使组织更好地了解其云支出。它还能够帮助他们就如何分配和管理云成本做出明智的决策。 FinOps 的目标不是节省资金，而是通过云实现最大化的收入或业务价值。它有助于组织控制云支出，同时保持支持其业务运营所需的性能、可靠性和安全性级别。

FinOps Foundation 将 FinOps 定义为三个阶段：通知、优化和运营。根据每个团队或企业完成 FinOps 的进度，公司可能会同时处于多个阶段。

**通知（成本洞察）：**通知是 FinOps 框架的第一阶段。这一阶段旨在为所有利益相关者提供所需的信息，以便于他们了解情况，从而做出有关云使用的经济高效的明智决策。

成本优化：成本优化重点是想方设法节约成本。根据当前使用情况，您的组织可以在哪些方面合理调整资源规模，并从折扣中受益？

成本运营：成本运营是 FinOps 框架的最后一个阶段。在这一阶段，组织会根据业务目标持续评估绩效，然后想方设法改进 FinOps 实践。优化工作到位后，组织可以借助自动化来实施策略，在不影响性能的情况下不断调整云资源来控制成本。

华为云云原生FinOps解决方案，参照业界FinOps标准与最佳实践，为用户提供云原生成本多维可视化与多种成本优化治理手段，协助客户最大化的收入或业务价值。

云原生FinOps - 成本洞察

华为云云原生FinOps成本洞察，提供如下关键特性：

1、基于标签的资源成本归属

支持ECS、EVS等资源关联集群标签，便于集群费用汇总计算

2、基于CBC账单的精准成本计算

基于CBC真实账单进行成本分摊计算，精准划分部门成本

3、灵活的成本分摊策略

支持集群、命名空间、节点池、应用、自定义等多种维度的成本可视化与成本分摊策略。

4、支持长期的成本数据存储与检索

最大支持长达2年的成本分析，支持月度，季度，年度报表及导出。

5、工作负载快速感知，轻松应对快速弹性场景

针对应用快速弹性场景，支持分钟级的负载发现与计费能力，让所有成本无一遗漏。

云原生成本洞察的实现机制介绍：

1、集群物理资源成本 VS 集群逻辑资源成本

集群的成本可以从两个角度来计算：

集群物理资源成本，包括集群直接或间接关联的资源成本，比如集群管理费、ECS成本、EVS成本等。集群的物理资源成本可以从云成本账单中直观的体现出来。
集群逻辑资源成本，从kubernetes资源的角度，集群的成本包括工作负载的成本，再加上集群闲置资源成本和公共开销成本。

不难看出，集群物理资源成本=集群逻辑资源成本。

2、单位资源（CPU/内存等）成本计算

在集群的物理资源成本已知的情况下，如何推导出集群逻辑资源成本（如pod/工作负载），是云原生FinOps成本洞察的关键。这里核心要解决的问题是单位资源成本计算的问题。我们知道，一般的云虚拟机是按照整机的价格去售卖的，不会按照单位CPU或内存售卖。但是容器服务的资源占用是按照单位资源（CPU或内存等）来申请的。所以必须计算出单位资源的成本，才能最终计算出容器服务占用的成本。

一般云厂商单位CPU或内存的价格会有一个估算值，我们也可以按照CPU和内存的成本占比来计算单位资源成本。

3、云原生资源成本计算

从下图我们可以看出，一个Pod的资源使用是随着时间动态波动。有些时刻Pod的资源占用低于资源申请（Request），有些时刻Pod的资源占用大于资源申请（Request）。在计算Pod成本时，我们会定时采样Pod的实际使用值和Request值，并将实际使用值和Request值中的最大值用于Pod的成本计算。这是因为一旦Request值分配给Pod，那么这不是资源会被K8S预留，不会被其他Pod抢占。所有Pod需要为Request部门的资源买单。同理，如果Pod的实际使用量大于Request，那么这个Pod也需要为超出的部分买单。