当前,数据中心的 AI 工作负载已不堪重负,从各个层面都需要个人电脑加入其中,以减轻大型 GPU 安装的压力。“AI PC”是一个流行词,它巧妙地描述了未来几年将进入市场的新型PC。
“即使是 PC 计算堆栈也将发生革命。”—— Nvidia 首席执行官黄仁勋
以前,个人电脑只能运行可执行文件来执行逻辑任务,而现在,电脑内部将有一个小型人工智能大脑,可以推理和做出决策、回答问题、创建程序或改善用户体验。而开发者编写的软件,将让这些大脑给出最佳答案。软件越来越大,越来越好,用户可以在电脑上加载大型语言模型,无需互联网连接即可运行人工智能。有的个人PC已经配备了人工智能芯片,但它们大多是没用的,因为它们不符合微软对人工智能个人电脑资格规定的最低要求。大语言模型工并没有针对人工智能个人电脑的低功耗进行微调,但这种情况正在改变。黄仁勋还说道:“人工智能不是芯片问题......而是系统问题。”微软的 AI PC 概念微软在刚刚闭幕的 Build 大会上公布了 Copilot+ PC 的概念,也就是AI PC。从理论上讲,这些 PC 是硬件和软件共同设计的早期实例,可以在 Windows PC 下运行 AI。这家世界级的软件公司正在为 AI PC 中的硬件定下基调,其中主板包括可提供至少 45 TOPS(每秒万亿次运算/每秒一兆次操作)的NPU(神经处理单元)芯片+16G内存+SSD存储。
“我们相信,Windows Copilot Runtime 对于 AI 的意义就如同 Win32 对于图形用户界面的意义一样。”——微软首席执行官萨蒂亚·纳德拉 (Satya Nadella)
首批符合条件的AI PC是搭载高通NPU芯片的Copilot+ PC,是在Build开发者大会期间发布的。以下是微软CEO萨蒂亚·纳德拉的讲话:“我们推出 Windows Copilot Runtime ,是为了让 Windows 成为你构建 AI 应用程序的最佳平台。正像 Win32 之于图形用户界面,我们相信 Windows Copilot Runtime 于 AI 也同样如此,”微软已经在 Windows 中配备了具有 Copilot 功能的人工智能,即在 PC 中输入的查询会被重定向到数据中心,然后数据中心会将答案输出到桌面。微软看到了将此类低优先级任务将转移至 PC 的机会,这可以节省带宽并释放数据中心的 GPU。例如在 Bing 搜索中的 Copilot 功能严重依赖 GPT-4 的定制版本来回答问题。这些AI PC 将包含一个 Windows Copilot 库,它具有本地化的 API,可帮助将应用程序连接到Copilot 堆栈。微软已经开发了 ONNX 运行时,这是一种推理运行时,也受到主流芯片制造商的欢迎。还有一个已经明确的情况,配备 Nvidia RTX GPU 的 Windows PC 也可以运行本地 AI(主要用于聊天机器人和生成图像),其方法是手动加载 Nvidia 的 cuDNN 神经网络环境、加载 PyTorch 和安装 Python。但这是一个“痛苦”的过程,因为每次重启时都必须重新加载堆栈,这可能需要 10 分钟或更长时间。而微软正在利用系统库和驱动程序实现整个过程的自动化,从而将 AI 工作负载容器化。微软已经有了一个名为 DirectML 的机器学习驱动程序,它更像是用于板载机器学习的 DirectX。本地 Copilot 副驾驶微软也明白,人工智能已经发展到涵盖一系列大型语言模型,这些模型在数学、编码和推理方面的表现各不相同。有很多人只想使用其他开源模型,而不依赖微软的AI堆栈。针对这种情况,微软推出了一个大型语言模型库,开发者可以在 Windows 11 PC 上安装和加载。纳德拉表示:“我们有 40 多个现成的大语言模型......这些模型是我们专门设计用来在 Copilot + PC 上本地运行你的输入的,可以为设备带来闪电般快速的本地推理。”微软的 Copilot+ 集成了 RAG(检索增强生成)技术,以提供更准确的答案。自助服务模式包括 Phi Silica,这是微软开源 Phi-3-mini LLM 的 38 亿参数版本。纳德拉表示,“我们专门设计了它,以便在 Copilot+ PC 上本地运行您的输入。” PC 上的 Phi Silica LLM 将能够允许微软将一些 Copilot 提示语从云端的 GPU 上卸载。微软的 Copilot+ 集成了 RAG(检索增强生成)技术,可以提供更准确的答案。在这种情况下,答案还依赖于从外部来源提供的其他数据,例如 PC 上的信息,这样更加有助于提供更准确的答案,而不是完全依赖于基于几个月前从互联网上抓取的信息的大语言模型。微软表示,它将提供工具将各种内容输入到其 AI 堆栈中,确保开发者在编写可在机载 PC 上处理的 AI 应用程序时能够处理图像、语音、视频和文本。微软已经为矢量嵌入做好了准备,以确保不同类型的数据可以轻松关联并集成到 AI 功能中。Windows App SDK 1.6 Experimental 2 有许多 API 可用于运行聊天机器人、进行计算或解决问题。这些 API 可以连接到应用程序并集成到用户界面中。在 Build 大会上,微软还宣布 Windows 原生支持 PyTorch。这是运行使用该框架编写的 LLM 的必要条件,这样用户每次想要在 PC 上加载 LLM 时,不必经历安装 PyTorch 的繁琐过程。“原生 PyTorch 支持意味着数以千计的 OSS 模型将在 Windows 上开箱即用,让人们轻松上手。事实上,借助 WebNN,Web 开发人员终于拥有了一个 Web 原生机器学习框架,让他们可以直接访问 GPU 和 NPU(神经处理单元)”。设备和芯片制造商设备上的 AI 要与硬件一样快,而这些 LLM 是为设备上的 NPU 设计的。谷歌在前不久的 IO 大会上也分享了开发者如何编写在智能手机上本地运行的 AI 应用程序详细信息。高通将是第一家支持Copilot 的公司,它推出了支持此款PC的骁龙Elite NPU芯片。去年,英特尔也发布了最新一代 x86 芯片Meteor Lake,该芯片的 NPU 峰值为 10 TOPS。遗憾的是,它不符合 Windows 最低 45 TOPS 的要求,因此无法称为适用于 Windows 的 AI PC(也称 CoPilot+ PC)。高通是首家推出搭载骁龙 Elite 芯片的 CoPilot+ 的公司,该芯片的 NPU 高达 45 TOPS。所有主要 PC 制造商(包括戴尔、惠普、华硕和联想)都已宣布推出搭载 AI 芯片的 PC。高通还推出了自己的 AI Hub 作为开发者工具的资源。它提供了一个可以通过一些典型的命令行提示符安装的 IDE,还提供了一个用于应用程序集成的 API 令牌。英特尔正在加快推出名为 Lunar Lake 的下一代 PC 芯片。开发者将能够下载 LLM 进行测试。API 令牌通常意味着开发者将能够将 LLM 集成到第三方应用程序中。英特尔将要推出其下一代 PC 芯片 Lunar Lake,该公司声称这款芯片将通过 45 TOPS NPU 满足 AI PC 的最低要求,如果使用 GPU,其性能可能会超过 100 TOPS。Lunar Lake 芯片预计在几个月内上市。英特尔也有自己的开发环境,称为 OneAPI,使用起来比较复杂。英特尔提供了在 GIMP 中加载 Stability Diffusion AI 进行图像生成的示例,但这是一个复杂的过程,涉及安装 OpenVino、运行命令行安装和进一步微调。英特尔还通过其 Tiber Developer Cloud 服务提供 Jupyter Notebook,以便开发者在其各种芯片上试用 AI,这也是一个更安全的选择。结语在 Windows 中为开发者提供的改进,都是在其新的 Arm 驱动系统以及即将推出的AMD和英特尔NPU 之上,开发更多 AI 驱动应用程序的基础。微软在为开发者构建用于 Windows 的 AI 应用程序平台,现在它正将其视为 Windows 开发下一个十年的重要组成部分。希望如微软所说,以NPU为标志的 Copilot PC + Windows 是 “AI 最开放的平台”。