谷歌发布 Gemini 1.5，最高支持百万级 token 上下文-每日运维

在推出号称最强大的 Gemini Ultra 模型一周后，谷歌今天发布了拥有最长上下文窗口的下一代大模型 Gemini 1.5 —— 最高支持 100 万 token 的上下文长度。

https://blog.google/technology/ai/google-gemini-next-generation-model-february-2024

谷歌首席科学家 Jeff Dean 表示，Gemini 1.5 的上下文理解能力可支持百万级 token 的多模态输入，让用户能够使用该模型与数十万字的超长文档、拥有数百个文件的数十万行代码库、一部完整的电影等进行交互。

Gemini 1.5 介绍

性能提升：Gemini 1.5在多个维度上展现出显著的性能提升，特别是在处理长上下文信息的能力上实现了重大突破，可以连续处理高达100万个标记（tokens），拥有迄今为止所有大型基础模型中最长的上下文窗口。
高效架构：Gemini 1.5采用了新的Mixture-of-Experts（MoE）架构，使模型更高效地进行训练和服务，同时在维持类似于1.0 Ultra模型的质量的同时，减少了计算需求。
长上下文窗口：这一特点允许Gemini 1.5处理并分析大量信息，比如1小时的视频、11小时的音频、超过30,000行代码的代码库或超过700,000字的文本。
跨模态理解和推理：Gemini 1.5能够对不同模态的内容（包括文本、代码、图像、音频和视频）进行高度复杂的理解和推理，例如，分析44分钟的默片并准确捕捉情节要点和细节。
增强性能：在文本、代码、图像、音频和视频评估的综合面板上测试时，Gemini 1.5 Pro在用于开发我们的大型语言模型（LLMs）的87%的基准测试中表现优于1.0 Pro，并且与1.0 Ultra在同样的基准测试中表现大致相当。

Gemini 1.5 技术报告：https://storage.googleapis.com/deepmind-media/gemini/gemini_v1_5_report.pdf

谷歌发布 Gemini 1.5，最高支持百万级 token 上下文