应用

多模态:音频/视频解析与结构化输出

Gemini 3 是原生的多模态模型。本课程将教你如何直接将视频和音频文件输入给模型,并提取出结构化的 JSON 数据。

1 小时 多模态 4.7

2. 视频理解与摘要

你可以上传一段长达 1 小时的会议视频,让 Gemini 生成带时间戳的会议纪要。

import google.generativeai as genai

video_file = genai.upload_file(path="meeting.mp4")

model = genai.GenerativeModel('gemini-3-pro')
prompt = "请总结这段视频的主要议题,并列出每个议题的开始时间。"

response = model.generate_content([prompt, video_file])
print(response.text)

4. 结构化输出 (JSON Mode)

为了方便程序处理,我们可以强制模型返回 JSON 格式的数据。

prompt = """
分析这段音频,提取出所有的待办事项。
请使用以下 JSON 格式返回:
{
  "todos": [
    {"task": "任务描述", "assignee": "负责人", "due_date": "截止日期"}
  ]
}
"""
response = model.generate_content([prompt, audio_file], generation_config={"response_mime_type": "application/json"})
print(response.text)