AMD在Linux6.9中推出FRU内存毒药管理器

2024年 3月 6日 68.7k 0


等待在即将到来的Linux6.9内核周期中推出的是由AMD开发的FRU内存毒化管理器“FMPM”,该管理器稍后可能适用于其他非AMD平台。FRU Memory Poison Manager正在努力在重新启动后保留有关已知损坏/故障内存的信息。

如前所述,AMD一直致力于行退役支持和用于处理故障内存的其他更改尤其是配备HBM3内存的本能MI300系列。虽然行停用支持允许在达到错误阈值后逐步停止使用该DRAM行,但最终它可能会在干净的重启时重复使用。与即将推出的FRU Memory Poison Manager一起,它将允许在重新启动后有选择地将此类信息保存在坏内存周围。

对于持续出现故障的内存,其目的是让FRU Memory Poison Manager在新启动时立即停用,而不是经历处理错误并在以后处理故障的过程。用于此持久性的AMD FMPM驱动程序在Linux 6.9周期之前通过RAS子系统排队。新的“RAS_FMPM”KCONFIG开关允许构建此驱动程序,以便在重新启动时保存/恢复内存错误信息。该信息存档在ACPI ERST,即错误记录序列化表格中。

特定于平台的策略将允许设置在引导时停用有问题内存的行为。此合并在Linux 6.9合并窗口前面的RAS.git的“EDAC-for-Next”分支中总结了FRU Memory Poison Manager驱动程序:

“内存错误在内存密度高的系统上是预期发生的。通常,根据制造商和/或管理策略,少数唯一物理位置内的错误是可以接受的。在运行时,有错误的内存可能会失效,因此系统不再使用它。这是通过页面毒化以毫米为单位完成的,在系统重新启动之前,其影响将一直存在。

如果内存位置始终出现故障,则在下一个重新启动周期中可能会发生相同的运行时错误处理,从而导致由于已知的坏内存而终止作业。如果上次引导的信息没有丢失,则可以防止这种情况发生。

一些具有驱动程序管理内存的附加卡具有板载永久存储。它们的驱动程序在运行时将内存错误信息保存到永久存储中。然后在重置后恢复该信息,并且在使用硬件之前将淘汰已知损坏的内存。错误内存位置的运行日志在多次重置期间保持不变。

类似的解决方案也适用于CPU。但是,此解决方案应尽可能利用行业标准组件,而不是定制的平台驱动程序。

需要两个组件:记录格式和持久存储接口。

实施一个新模块来管理永久存储上的记录格式。使用基于AMD MI300的系统的要求启动。以后可以根据需要抽象特定于供应商和平台的详细信息。

很多MI300 work continues to work its way into the mainline kernel that should also benefit future Instinct generations.

相关文章

塑造我成为 CTO 之路的“秘诀”
“人工智能教母”的公司估值达 10 亿美金
教授吐槽:985 高校成高级蓝翔!研究生基本废了,只为房子、票子……
Windows 蓝屏中断提醒开发者:Rust 比 C/C++ 更好
Claude 3.5 Sonnet 在伽利略幻觉指数中名列前茅
上海新增 11 款已完成登记生成式 AI 服务

发布评论