OpenAI 推出了一款最新的旗舰生成式 AI 模型 GPT-4o,其中“o”代表“omni”,源自拉丁语“omnis(意为“全能”)”,指的是该模型处理文本、语音和视频的能力。
GPT-4o 将在未来几周内向所有免费的 ChatGPT 用户开放,同时还将推出一个 MacOS 版的 ChatGPT 桌面应用程序(稍后将推出 Windows 版),允许用户在网络和移动应用程序之外进行访问。
OpenAI 首席技术官 Mira Murati 表示,GPT-4o 提供了“GPT-4 级别”的智能,但改进了 GPT-4 跨多种模式和媒体的能力。“GPT-4o 可以跨越语音、文本和视觉。这一点非常重要,因为我们正在研究我们自己与机器之间交互的未来。”
根据介绍,GPT-4o 对语音功能进行了增强,提升交互体验。例如,用户可以向 GPT-4o 支持的 ChatGPT 提问,并在 ChatGPT 回答时打断它。 OpenAI 表示,该模型提供“实时”响应能力,甚至可以识别用户声音中的细微差别,从而生成“一系列不同情感风格”(包括唱歌)的声音。
“它可以在短短 232 毫秒内响应音频输入,平均为 320 毫秒,这与人类在对话中的响应时间相似”。而此前 GPT-3.5 语音对话的平均延迟为 2.8 秒、GPT-4 为 5.4秒,音频在输入时还会由于处理方式丢失大量信息,无法识别笑声、歌唱声和情感表达等。
GPT-4o 还升级了 ChatGPT 的视觉能力。给定一张照片或一个 desktop screen,ChatGPT 现在可以快速回答相关问题。
Murati 表示,未来将进一步发展其自然语言、实时语音对话功能;并添加通过实时视频进行 ChatGPT 对话的功能,使 ChatGPT 能够“观看”现场体育赛事并向用户解释规则。
“我们知道这些模型越来越复杂,但我们希望交互体验实际上变得更加自然、轻松,让你完全不用关注用户界面,而只关注与 ChatGPT 的协作。过去几年,我们一直非常专注于提高这些模型的智能性......但这是我们第一次真正在易用性方面向前迈出一大步。”
OpenAI 声称,GPT-4o 还具有更强的多语言能力,可增强约 50 种语言的性能。该公司表示,在 OpenAI 的 API 和微软的 Azure OpenAI 服务中,GPT-4o 的速度是 GPT-4 Turbo 的两倍,价格是后者的一半,速率限制也更高。
OpenAI 计划在未来几周内首先面向“一小部分可信赖的合作伙伴 ”推出对 GPT-4o 新音频功能的支持。
ChatGPT Free 用户在使用 GPT-4o 时将能够访问的功能包括:
- 体验 GPT-4 级智能
- 从模型和网络获取响应
- 分析数据 并创建图表
- 聊聊你拍摄的照片
- 上传文件以寻求帮助总结、写作或分析
- 发现并使用 GPT 和 GPT 商店
- 使用 Memory 打造更有帮助的体验