五种加速 Go 的特性

2024年 7月 18日 53.7k 0

Anthony Starks 使用他出色的 Deck 演示工具重构了我原来的基于 Google Slides 的幻灯片。你可以在他的博客上查看他重构后的幻灯片,mindchunk.blogspot.com.au/2014/06/remixing-with-deck。

我最近被邀请在 Gocon 发表演讲,这是一个每半年在日本东京举行的 Go 的精彩大会。Gocon 2014 是一个完全由社区驱动的为期一天的活动,由培训和一整个下午的围绕着生产环境中的 Go 这个主题的演讲组成.(LCTT 译注:本文发表于 2014 年)

以下是我的讲义。原文的结构能让我缓慢而清晰的演讲,因此我已经编辑了它使其更可读。

我要感谢 Bill Kennedy 和 Minux Ma,特别是 Josh Bleecher Snyder,感谢他们在我准备这次演讲中的帮助。

大家下午好。

我叫 David.

我很高兴今天能来到 Gocon。我想参加这个会议已经两年了,我很感谢主办方能提供给我向你们演讲的机会。

五种加速 Go 的特性-1

我想以一个问题开始我的演讲。

为什么选择 Go?

当大家讨论学习或在生产环境中使用 Go 的原因时,答案不一而足,但因为以下三个原因的最多。

五种加速 Go 的特性-2

这就是 TOP3 的原因。

第一,并发。

Go 的 并发原语 Concurrency Primitives 对于来自 Nodejs,Ruby 或 Python 等单线程脚本语言的程序员,或者来自 C++ 或 Java 等重量级线程模型的语言都很有吸引力。

易于部署。

我们今天从经验丰富的 Gophers 那里听说过,他们非常欣赏部署 Go 应用的简单性。

五种加速 Go 的特性-3

然后是性能。

我相信人们选择 Go 的一个重要原因是它 快。

五种加速 Go 的特性-4

在今天的演讲中,我想讨论五个有助于提高 Go 性能的特性。

我还将与大家分享 Go 如何实现这些特性的细节。

五种加速 Go 的特性-5

我要谈的第一个特性是 Go 对于值的高效处理和存储。

五种加速 Go 的特性-6

这是 Go 中一个值的例子。编译时,gocon 正好消耗四个字节的内存。

让我们将 Go 与其他一些语言进行比较

五种加速 Go 的特性-7

由于 Python 表示变量的方式的开销,使用 Python 存储相同的值会消耗六倍的内存。

Python 使用额外的内存来跟踪类型信息,进行 引用计数 Reference Counting 等。

让我们看另一个例子:

五种加速 Go 的特性-8

与 Go 类似,Java 消耗 4 个字节的内存来存储 int 型。

但是,要在像 ListMap 这样的集合中使用此值,编译器必须将其转换为 Integer 对象。

五种加速 Go 的特性-9

因此,Java 中的整数通常消耗 16 到 24 个字节的内存。

为什么这很重要? 内存便宜且充足,为什么这个开销很重要?

五种加速 Go 的特性-10

这是一张显示 CPU 时钟速度与内存总线速度的图表。

请注意 CPU 时钟速度和内存总线速度之间的差距如何继续扩大。

两者之间的差异实际上是 CPU 花费多少时间等待内存。

五种加速 Go 的特性-11

自 1960 年代后期以来,CPU 设计师已经意识到了这个问题。

他们的解决方案是一个缓存,一个更小、更快的内存区域,介入 CPU 和主存之间。

五种加速 Go 的特性-12

这是一个 Location 类型,它保存物体在三维空间中的位置。它是用 Go 编写的,因此每个 Location 只消耗 24 个字节的存储空间。

我们可以使用这种类型来构造一个容纳 1000 个 Location 的数组类型,它只消耗 24000 字节的内存。

在数组内部,Location 结构体是顺序存储的,而不是随机存储的 1000 个 Location 结构体的指针。

这很重要,因为现在所有 1000 个 Location 结构体都按顺序放在缓存中,紧密排列在一起。

五种加速 Go 的特性-13

Go 允许您创建紧凑的数据结构,避免不必要的填充字节。

紧凑的数据结构能更好地利用缓存。

更好的缓存利用率可带来更好的性能。

五种加速 Go 的特性-14

函数调用不是无开销的。

五种加速 Go 的特性-15

调用函数时会发生三件事。

创建一个新的 栈帧 Stack Frame ,并记录调用者的详细信息。

在函数调用期间可能被覆盖的任何寄存器都将保存到栈中。

处理器计算函数的地址并执行到该新地址的分支。

五种加速 Go 的特性-16

由于函数调用是非常常见的操作,因此 CPU 设计师一直在努力优化此过程,但他们无法消除开销。

函调固有开销,或重于泰山,或轻于鸿毛,这取决于函数做了什么。

减少函数调用开销的解决方案是 内联 Inlining 。

五种加速 Go 的特性-17

Go 编译器通过将函数体视为调用者的一部分来内联函数。

内联也有成本,它增加了二进制文件大小。

只有当调用开销与函数所做工作关联度的很大时内联才有意义,因此只有简单的函数才能用于内联。

复杂的函数通常不受调用它们的开销所支配,因此不会内联。

五种加速 Go 的特性-18

这个例子显示函数 Double 调用 util.Max

为了减少调用 util.Max 的开销,编译器可以将 util.Max 内联到 Double 中,就象这样

五种加速 Go 的特性-1

内联后不再调用 util.Max,但是 Double 的行为没有改变。

内联并不是 Go 独有的。几乎每种编译或及时编译的语言都执行此优化。但是 Go 的内联是如何实现的?

Go 实现非常简单。编译包时,会标记任何适合内联的小函数,然后照常编译。

然后函数的源代码和编译后版本都会被存储。

五种加速 Go 的特性-20

此幻灯片显示了 util.a 的内容。源代码已经过一些转换,以便编译器更容易快速处理。

当编译器编译 Double 时,它看到 util.Max 可内联的,并且 util.Max 的源代码是可用的。

就会替换原函数中的代码,而不是插入对 util.Max 的编译版本的调用。

拥有该函数的源代码可以实现其他优化。

五种加速 Go 的特性-21

在这个例子中,尽管函数 Test 总是返回 false,但 Expensive 在不执行它的情况下无法知道结果。

Test 被内联时,我们得到这样的东西。

五种加速 Go 的特性-22

编译器现在知道 Expensive 的代码无法访问。

这不仅节省了调用 Test 的成本,还节省了编译或运行任何现在无法访问的 Expensive 代码。

Go 编译器可以跨文件甚至跨包自动内联函数。还包括从标准库调用的可内联函数的代码。

五种加速 Go 的特性-23

强制垃圾回收 Mandatory Garbage Collection 使 Go 成为一种更简单,更安全的语言。

这并不意味着垃圾回收会使 Go 变慢,或者垃圾回收是程序速度的瓶颈。

这意味着在堆上分配的内存是有代价的。每次 GC 运行时都会花费 CPU 时间,直到释放内存为止。

五种加速 Go 的特性-24

然而,有另一个地方分配内存,那就是栈。

与 C 不同,它强制您选择是否将值通过 malloc 将其存储在堆上,还是通过在函数范围内声明将其储存在栈上;Go 实现了一个名为 逃逸分析 Escape Analysis 的优化。

五种加速 Go 的特性-25

逃逸分析决定了对一个值的任何引用是否会从被声明的函数中逃逸。

如果没有引用逃逸,则该值可以安全地存储在栈中。

存储在栈中的值不需要分配或释放。

让我们看一些例子

五种加速 Go 的特性-26

Sum 返回 1 到 100 的整数的和。这是一种相当不寻常的做法,但它说明了逃逸分析的工作原理。

因为切片 numbers 仅在 Sum 内引用,所以编译器将安排到栈上来存储的 100 个整数,而不是安排到堆上。

没有必要回收 numbers,它会在 Sum 返回时自动释放。

五种加速 Go 的特性-27

第二个例子也有点尬。在 CenterCursor 中,我们创建一个新的 Cursor 对象并在 c 中存储指向它的指针。

然后我们将 c 传递给 Center() 函数,它将 Cursor 移动到屏幕的中心。

最后我们打印出那个 ‘Cursor` 的 X 和 Y 坐标。

即使 cnew 函数分配了空间,它也不会存储在堆上,因为没有引用 c 的变量逃逸 CenterCursor 函数。

五种加速 Go 的特性-28

默认情况下,Go 的优化始终处于启用状态。可以使用 -gcflags = -m 开关查看编译器的逃逸分析和内联决策。

因为逃逸分析是在编译时执行的,而不是运行时,所以无论垃圾回收的效率如何,栈分配总是比堆分配快。

我将在本演讲的其余部分详细讨论栈。

五种加速 Go 的特性-29

Go 有 goroutine。 这是 Go 并发的基石。

我想退一步,探索 goroutine 的历史。

最初,计算机一次运行一个进程。在 60 年代,多进程或 分时 Time Sharing 的想法变得流行起来。

在分时系统中,操作系统必须通过保护当前进程的现场,然后恢复另一个进程的现场,不断地在这些进程之间切换 CPU 的注意力。

这称为 进程切换。

五种加速 Go 的特性-30

进程切换有三个主要开销。

首先,内核需要保护该进程的所有 CPU 寄存器的现场,然后恢复另一个进程的现场。

内核还需要将 CPU 的映射从虚拟内存刷新到物理内存,因为这些映射仅对当前进程有效。

最后是操作系统 上下文切换 Context Switch 的成本,以及 调度函数 Scheduler Function 选择占用 CPU 的下一个进程的开销。

五种加速 Go 的特性-31

现代处理器中有数量惊人的寄存器。我很难在一张幻灯片上排开它们,这可以让你知道保护和恢复它们需要多少时间。

由于进程切换可以在进程执行的任何时刻发生,因此操作系统需要存储所有寄存器的内容,因为它不知道当前正在使用哪些寄存器。

五种加速 Go 的特性-32

这导致了线程的出生,这些线程在概念上与进程相同,但共享相同的内存空间。

由于线程共享地址空间,因此它们比进程更轻,因此创建速度更快,切换速度更快。

五种加速 Go 的特性-33

Goroutine 升华了线程的思想。

Goroutine 是 协作式调度 Cooperative Scheduled 的,而不是依靠内核来调度。

当对 Go 运行时调度器 Runtime Scheduler 进行显式调用时,goroutine 之间的切换仅发生在明确定义的点上。

编译器知道正在使用的寄存器并自动保存它们。

五种加速 Go 的特性-34

虽然 goroutine 是协作式调度的,但运行时会为你处理。

Goroutine 可能会给禅让给其他协程时刻是:

  • 阻塞式通道发送和接收。
  • Go 声明,虽然不能保证会立即调度新的 goroutine。
  • 文件和网络操作式的阻塞式系统调用。
  • 在被垃圾回收循环停止后。

五种加速 Go 的特性-35

这个例子说明了上一张幻灯片中描述的一些调度点。

箭头所示的线程从左侧的 ReadFile 函数开始。遇到 os.Open,它在等待文件操作完成时阻塞线程,因此调度器将线程切换到右侧的 goroutine。

继续执行直到从通道 c 中读,并且此时 os.Open 调用已完成,因此调度器将线程切换回左侧并继续执行 file.Read 函数,然后又被文件 IO 阻塞。

调度器将线程切换回右侧以进行另一个通道操作,该操作在左侧运行期间已解锁,但在通道发送时再次阻塞。

最后,当 Read 操作完成并且数据可用时,线程切换回左侧。

五种加速 Go 的特性-36

这张幻灯片显示了低级语言描述的 runtime.Syscall 函数,它是 os 包中所有函数的基础。

只要你的代码调用操作系统,就会通过此函数。

entersyscall 的调用通知运行时该线程即将阻塞。

这允许运行时启动一个新线程,该线程将在当前线程被阻塞时为其他 goroutine 提供服务。

这导致每 Go 进程的操作系统线程相对较少,Go 运行时负责将可运行的 Goroutine 分配给空闲的操作系统线程。

五种加速 Go 的特性-37

在上一节中,我讨论了 goroutine 如何减少管理许多(有时是数十万个并发执行线程)的开销。

Goroutine故事还有另一面,那就是栈管理,它引导我进入我的最后一个话题。

五种加速 Go 的特性-38

这是一个进程的内存布局图。我们感兴趣的关键是堆和栈的位置。

传统上,在进程的地址空间内,堆位于内存的底部,位于程序(代码)的上方并向上增长。

栈位于虚拟地址空间的顶部,并向下增长。

五种加速 Go 的特性-39

因为堆和栈相互覆盖的结果会是灾难性的,操作系统通常会安排在栈和堆之间放置一个不可写内存区域,以确保如果它们发生碰撞,程序将中止。

这称为保护页,有效地限制了进程的栈大小,通常大约为几兆字节。

五种加速 Go 的特性-40

我们已经讨论过线程共享相同的地址空间,因此对于每个线程,它必须有自己的栈。

由于很难预测特定线程的栈需求,因此为每个线程的栈和保护页面保留了大量内存。

希望是这些区域永远不被使用,而且防护页永远不会被击中。

缺点是随着程序中线程数的增加,可用地址空间的数量会减少。

五种加速 Go 的特性-41

我们已经看到 Go 运行时将大量的 goroutine 调度到少量线程上,但那些 goroutines 的栈需求呢?

Go 编译器不使用保护页,而是在每个函数调用时插入一个检查,以检查是否有足够的栈来运行该函数。如果没有,运行时可以分配更多的栈空间。

由于这种检查,goroutines 初始栈可以做得更小,这反过来允许 Go 程序员将 goroutines 视为廉价资源。

五种加速 Go 的特性-42

这是一张显示了 Go 1.2 如何管理栈的幻灯片。

G 调用 H 时,没有足够的空间让 H 运行,所以运行时从堆中分配一个新的栈帧,然后在新的栈段上运行 H。当 H 返回时,栈区域返回到堆,然后返回到 G

五种加速 Go 的特性-43

这种管理栈的方法通常很好用,但对于某些类型的代码,通常是递归代码,它可能导致程序的内部循环跨越这些栈边界之一。

例如,在程序的内部循环中,函数 G 可以在循环中多次调用 H

每次都会导致栈拆分。 这被称为 热分裂 Hot Split 问题。

五种加速 Go 的特性-44

为了解决热分裂问题,Go 1.3 采用了一种新的栈管理方法。

如果 goroutine 的栈太小,则不会添加和删除其他栈段,而是分配新的更大的栈。

旧栈的内容被复制到新栈,然后 goroutine 使用新的更大的栈继续运行。

在第一次调用 H 之后,栈将足够大,对可用栈空间的检查将始终成功。

这解决了热分裂问题。

五种加速 Go 的特性-45

值,内联,逃逸分析,Goroutines 和分段/复制栈。

这些是我今天选择谈论的五个特性,但它们绝不是使 Go 成为快速的语言的唯一因素,就像人们引用他们学习 Go 的理由的三个原因一样。

这五个特性一样强大,它们不是孤立存在的。

例如,运行时将 goroutine 复用到线程上的方式在没有可扩展栈的情况下几乎没有效率。

内联通过将较小的函数组合成较大的函数来降低栈大小检查的成本。

逃逸分析通过自动将从实例从堆移动到栈来减少垃圾回收器的压力。

逃逸分析还提供了更好的 缓存局部性 Cache Locality 。

如果没有可增长的栈,逃逸分析可能会对栈施加太大的压力。

五种加速 Go 的特性-46

  • 感谢 Gocon 主办方允许我今天发言
  • twitter / web / email details
  • 感谢 @offbymany,@billkennedy_go 和 Minux 在准备这个演讲的过程中所提供的帮助。

相关文章:

  • 听我在 OSCON 上关于 Go 性能的演讲
  • 为什么 Goroutine 的栈是无限大的?
  • Go 的运行时环境变量的旋风之旅
  • 没有事件循环的性能
  • 作者简介:

    David 是来自澳大利亚悉尼的程序员和作者。

    自 2011 年 2 月起成为 Go 的 contributor,自 2012 年 4 月起成为 committer。

    联系信息

    • dave@cheney.net
    • twitter: @davecheney

    via: https://dave.cheney.net/2014/06/07/five-things-that-make-go-fast

    作者:Dave Cheney 译者:houbaron 校对:wxy

    本文由 LCTT 原创编译,Linux中国 荣誉推出

    相关文章

    Linux 命令行的聊天工具 CenterIM
    Linux 桌面年仍未到来 但 Linux 移动之年已到来
    12 个在线学习 Linux 技能网站
    Linux Mint : 会是另一个新的 Ubuntu 吗?
    W3Conf 开发者大会将于下周召开
    Ubuntu 10.04 ARM 处理器上网本版本结束服务期

    发布评论