在推出号称最强大的 Gemini Ultra 模型一周后,谷歌今天发布了拥有最长上下文窗口的下一代大模型 Gemini 1.5 —— 最高支持 100 万 token 的上下文长度。
https://blog.google/technology/ai/google-gemini-next-generation-model-february-2024
谷歌首席科学家 Jeff Dean 表示,Gemini 1.5 的上下文理解能力可支持百万级 token 的多模态输入,让用户能够使用该模型与数十万字的超长文档、拥有数百个文件的数十万行代码库、一部完整的电影等进行交互。
Gemini 1.5 介绍
- 性能提升:Gemini 1.5在多个维度上展现出显著的性能提升,特别是在处理长上下文信息的能力上实现了重大突破,可以连续处理高达100万个标记(tokens),拥有迄今为止所有大型基础模型中最长的上下文窗口。
- 高效架构:Gemini 1.5采用了新的Mixture-of-Experts(MoE)架构,使模型更高效地进行训练和服务,同时在维持类似于1.0 Ultra模型的质量的同时,减少了计算需求。
- 长上下文窗口:这一特点允许Gemini 1.5处理并分析大量信息,比如1小时的视频、11小时的音频、超过30,000行代码的代码库或超过700,000字的文本。
- 跨模态理解和推理:Gemini 1.5能够对不同模态的内容(包括文本、代码、图像、音频和视频)进行高度复杂的理解和推理,例如,分析44分钟的默片并准确捕捉情节要点和细节。
- 增强性能:在文本、代码、图像、音频和视频评估的综合面板上测试时,Gemini 1.5 Pro在用于开发我们的大型语言模型(LLMs)的87%的基准测试中表现优于1.0 Pro,并且与1.0 Ultra在同样的基准测试中表现大致相当。
Gemini 1.5 技术报告:https://storage.googleapis.com/deepmind-media/gemini/gemini_v1_5_report.pdf