最新版本 1.5 Pro

Gemini

Google 最强大、最通用的模型,为多模态而生。

Gemini Model

什么是 Gemini?

Gemini 是 Google DeepMind 从头开始构建的原生多模态模型。它不仅能理解文本,还能流畅地理解和生成代码、音频、图像和视频。

Gemini Ultra

适用于高度复杂的任务,性能最强。

  • 推理能力最强
  • 多模态理解最佳
  • 适合企业级应用

Gemini Pro

最受欢迎

性能与成本的最佳平衡,适合广泛任务。

  • 通用性强
  • 响应速度快
  • 支持 1M Token 上下文

Gemini Nano

端侧模型,可在移动设备上离线运行。

  • 低延迟
  • 隐私保护
  • 无需联网

核心能力演示

user: 这张图片里有什么?[图片.jpg]
gemini: 这张图片展示了一只在草地上奔跑的金毛寻回犬。阳光洒在它的毛发上,看起来非常有活力。背景是模糊的公园树木。
user: 请根据图片写一段代码生成类似的SVG图形。
gemini: 好的,这是一个简化的SVG代码表示...

原生多模态理解

Gemini 可以同时处理文本、图像和代码。你可以上传一张网页截图,让它直接生成 HTML 代码;或者上传一段视频,让它总结视频内容。

查看更多示例

技术架构

混合专家模型 (MoE)

Gemini 1.5 Pro 采用了先进的 Transformer 架构,并集成了混合专家 (Mixture-of-Experts) 技术。这意味着模型被划分为多个更小的"专家"神经网络,在处理特定类型的输入时,只有最相关的"专家"会被激活。

  • 高效推理: 即使参数量巨大,也能保持极快的响应速度。
  • 专业化能力: 不同的专家专注于数学、代码、创意写作等不同领域。
  • 动态路由: 智能路由网络实时决定将输入发送给哪些专家。

MoE 架构示意图

性能基准测试

Gemini Ultra 在 32 项广泛使用的学术基准测试中,有 30 项超越了当前最先进的结果。

90.0%

MMLU

大规模多任务语言理解,首个超越人类专家水平的模型。

59.4%

MMMU

多学科多模态理解,涵盖大学水平的考试题目。

74.4%

HumanEval

Python 代码生成能力,展现卓越的编程逻辑。

安全与责任

我们按照 Google 的 AI 原则构建 Gemini。在训练的每个阶段,我们都进行了严格的安全评估,包括偏见和毒性分析。

红队测试

由外部专家进行对抗性攻击测试。

内容过滤

多层级的安全过滤器,防止有害内容生成。

AI Safety