什么是 Gemini?
Gemini 是 Google DeepMind 从头开始构建的原生多模态模型。它不仅能理解文本,还能流畅地理解和生成代码、音频、图像和视频。
Gemini Ultra
适用于高度复杂的任务,性能最强。
- 推理能力最强
- 多模态理解最佳
- 适合企业级应用
Gemini Pro
最受欢迎性能与成本的最佳平衡,适合广泛任务。
- 通用性强
- 响应速度快
- 支持 1M Token 上下文
Gemini Nano
端侧模型,可在移动设备上离线运行。
- 低延迟
- 隐私保护
- 无需联网
核心能力演示
user: 这张图片里有什么?[图片.jpg]
gemini: 这张图片展示了一只在草地上奔跑的金毛寻回犬。阳光洒在它的毛发上,看起来非常有活力。背景是模糊的公园树木。
user: 请根据图片写一段代码生成类似的SVG图形。
gemini: 好的,这是一个简化的SVG代码表示...
技术架构
混合专家模型 (MoE)
Gemini 1.5 Pro 采用了先进的 Transformer 架构,并集成了混合专家 (Mixture-of-Experts) 技术。这意味着模型被划分为多个更小的"专家"神经网络,在处理特定类型的输入时,只有最相关的"专家"会被激活。
- 高效推理: 即使参数量巨大,也能保持极快的响应速度。
- 专业化能力: 不同的专家专注于数学、代码、创意写作等不同领域。
- 动态路由: 智能路由网络实时决定将输入发送给哪些专家。
MoE 架构示意图
性能基准测试
Gemini Ultra 在 32 项广泛使用的学术基准测试中,有 30 项超越了当前最先进的结果。
90.0%
MMLU
大规模多任务语言理解,首个超越人类专家水平的模型。
59.4%
MMMU
多学科多模态理解,涵盖大学水平的考试题目。
74.4%
HumanEval
Python 代码生成能力,展现卓越的编程逻辑。
安全与责任
我们按照 Google 的 AI 原则构建 Gemini。在训练的每个阶段,我们都进行了严格的安全评估,包括偏见和毒性分析。
红队测试
由外部专家进行对抗性攻击测试。
内容过滤
多层级的安全过滤器,防止有害内容生成。