在开源软件上利用令人难以置信的人工智能计算能力:Linux上的8个AMD MI300X加速器

2024年 3月 15日 100.4k 0

几天前,我有机会沉迷于一个令人难以置信的计算nodes:8 AMD 直觉MI300X我可以随意使用加速器来进行一些虽然短暂的测试。这不仅是因为它的剪切计算性能,而且对于Phoronix的粉丝们来说,更令人兴奋的是,它位于从内核驱动程序到各种用户空间库(嗯,没有GPU微代码)的完全开源软件堆栈之上。这次首次接触AMD MI300系列让我们大开眼界,看到了ROCM软件堆栈已经走了多远,以及随着AMD硬件和软件努力的竞争力不断增强,NVIDIA未来面临的越来越大的挑战。

在短时间内,AMD允许我免费访问AMD加速器云 一个有八个MI300X加速器的实例。他们有三天的客户使用间隔,在过去的周末,我可以试用MI300X硬件和他们最新的开源Linux软件栈。

我可以不受限制地访问MI300X硬件进行实验。AMD确实提前设置了一些Docker容器,以轻松地尝试Llama 2大型语言模型等,超越所有其他ROCm模型和各种人工智能工作负载。在AMD加速器云上运行的是ROCm 6.0以及尝试的能力, ROCm 6.1 目前仍在为未来几周的正式发布而进行中。对于ROCm 6.1,AMD正在为MI300X系列准备一系列重要的优化,包括vLLM支持、更大的量化支持、HIP图形支持等。AMD今天还宣布,OpenAI已经将Triton AMD GPU支持合并到OpenAI Triton 3.0的上游。

考虑到我已经报道AMD Linux图形驱动程序场景20年了—追溯到他们有开源驱动程序策略和开始与臭名昭著的“fglodium”专有驱动程序的几年,AMD MI300X的体验是一个令人难以置信的反映,在如何远AMD的开源软件支持已经走了。Llama 2和其他人工智能工作负载运行速度很快,软件支持在Ubuntu 22.04 LTS安装上表现良好。

从开源的角度来看,目前唯一的其他竞争对手将是英特尔,其Habana Labs Gaudi2硬件由上游Linux内核支持,以及附带的SynapseAI用户空间软件,尽管尚未能够亲自测试软件体验。过去两年 NVIDIA的开放式内核模块 目前,虽然已经开始为他们的硬件提供开源内核驱动程序,但CUDA和所有其他用户空间驱动程序,如OpenGL,OpenCL和Vulkan支持仍然是开源的。没有迹象表明NVIDIA有任何计划让CUDA更加开源友好。由于NVIDIA开放内核模块不在主流Linux内核的上游,这进一步阻碍了采用和开源/Linux的理想。

这也是我第一次尝试AMD加速器云"AAC"后,以前尝试了他们的前, AMD云平台回到2022年。AAC很容易处理,而且在我短暂的相遇中没有任何麻烦。桌子另一边的英特尔有他们的开发者云"DevCloud"但尚未在普罗尼克斯进行测试。


关于Instinct MI300系列的更多背景信息,请通过 AMD 12月AI活动.

AMD本能MI300X的额定功率为750瓦,实际上,与测试中的硬件,能够推动所有八个本能MI300X到他们的750瓦额定,通过ROCM-SMI曝光的传感器报告。

由于AMD Instinct MI300X可用性的通知很短,然后非常短的时间来“踢轮胎”与AAC访问以及没有类似配置的服务器本地不同的GPU/加速器,本文只是作为我的初步经验的概述。我希望能够更长时间地访问AMD MI300系列硬件,届时将更专注于性能基准测试。但从这次初次相遇来看,我会说,这次初次测试是非常积极的,超出了我的预期。令人惊讶的是,AMD开源计算支持随着Llama 2和其他人工智能工作负载的启动和运行而走了多远,因为AMD软件工程师在2024年狂热地为ROCm进行更多的软件改进。在软件方面,NVIDIA仍有一些追赶的地方,而没有时间对ROCm 6.0进行太多的实验,这是很好的看到最近取得的进展。

所以现在,这是我第一次与AMD本能MI300系列牛仔竞技的简要总结,但请继续关注更多的测试(希望)很快。在过去的二十年里,AMD Linux驱动程序支持在Phoronix上得到了密切的覆盖,这是一个巨大的喜悦。感谢AMD提供免费访问Instinct MI300X在AMD加速器云上的一些初步测试。

相关文章

塑造我成为 CTO 之路的“秘诀”
“人工智能教母”的公司估值达 10 亿美金
教授吐槽:985 高校成高级蓝翔!研究生基本废了,只为房子、票子……
Windows 蓝屏中断提醒开发者:Rust 比 C/C++ 更好
Claude 3.5 Sonnet 在伽利略幻觉指数中名列前茅
上海新增 11 款已完成登记生成式 AI 服务

发布评论