最新版本 3.1 Pro

Gemini

Google 最强大、最通用的模型，为多模态而生。

在线体验获取 API Key

什么是 Gemini？

Gemini 是 Google DeepMind 从头开始构建的原生多模态模型。它不仅能理解文本，还能流畅地理解和生成代码、音频、图像和视频。

适用于高度复杂的任务，性能最强。

最受欢迎

性能与成本的最佳平衡，适合广泛任务。

端侧模型，可在移动设备上离线运行。

user: 这张图片里有什么？[图片.jpg]
gemini: 这张图片展示了一只在草地上奔跑的金毛寻回犬。阳光洒在它的毛发上，看起来非常有活力。背景是模糊的公园树木。
user: 请根据图片写一段代码生成类似的SVG图形。
gemini: 好的，这是一个简化的SVG代码表示...

Gemini 可以同时处理文本、图像和代码。你可以上传一张网页截图，让它直接生成 HTML 代码；或者上传一段视频，让它总结视频内容。

查看更多示例

Gemini 1.5 Pro 采用了先进的 Transformer 架构，并集成了混合专家 (Mixture-of-Experts) 技术。这意味着模型被划分为多个更小的"专家"神经网络，在处理特定类型的输入时，只有最相关的"专家"会被激活。

MoE 架构示意图

Gemini Ultra 在 32 项广泛使用的学术基准测试中，有 30 项超越了当前最先进的结果。

90.0%

大规模多任务语言理解，首个超越人类专家水平的模型。

59.4%

多学科多模态理解，涵盖大学水平的考试题目。

74.4%

Python 代码生成能力，展现卓越的编程逻辑。

我们按照 Google 的 AI 原则构建 Gemini。在训练的每个阶段，我们都进行了严格的安全评估，包括偏见和毒性分析。

由外部专家进行对抗性攻击测试。

多层级的安全过滤器，防止有害内容生成。