Gemini 1.5 Pro 发布:百万级上下文窗口的里程碑

Google DeepMind 推出 Gemini 1.5 Pro,采用高效的混合专家架构,带来突破性的长上下文理解能力。标准上下文窗口为 128K,面向开发者和企业用户的预览版本可扩展至 100 万 token,研究中已成功测试至 1000 万 token。

Gemini 1.5 Pro 示意图

什么是 100 万 Token 上下文?

"上下文窗口"决定了 AI 模型在一次对话中可以处理多少信息。100 万 token 意味着 Gemini 1.5 Pro 可以一次性处理:

这彻底改变了我们与 AI 交互的方式。开发者可以直接上传整个项目的代码库并询问复杂的重构建议;分析师可以上传数百份 PDF 报告并要求提取跨文档的洞察;电影制作人可以上传整部电影的草剪版本并寻求具体的反馈。

混合专家 (MoE) 架构

Gemini 1.5 Pro 建立在 Transformer 与 Mixture-of-Experts 的结合之上。模型根据输入选择性激活最相关的专家路径,实现更高效的推理。

这种设计使得模型在保持庞大参数量的同时,显著提高了推理效率和训练速度。这也解释了为什么 Gemini 1.5 Pro 能够在性能大幅提升的同时,依然保持了极具竞争力的服务延迟。

长上下文能力与典型测试

实验显示,模型在长上下文检索、跨文档引用和视频理解上的表现显著提升,可在百万级上下文下定位关键信息并保持引用一致性。

"更长的上下文窗口意味着更少的丢失与更强的记忆,我们正在迈向综合理解多模态信息的里程碑。"

如何试用?

开发者与企业用户可在 Google AI Studio 和 Vertex AI 中申请试用长上下文版本。Gemini Advanced 用户可用 1.5 Pro,并逐步获得更长上下文与新功能的更新。

作者头像

Google DeepMind

解决智能,以推进科学并造福人类。

返回新闻列表