多模态:音频/视频解析与结构化输出
Gemini 3 是原生的多模态模型。本课程将教你如何直接将视频和音频文件输入给模型,并提取出结构化的 JSON 数据。
1 小时
多模态
4.7
2. 视频理解与摘要
你可以上传一段长达 1 小时的会议视频,让 Gemini 生成带时间戳的会议纪要。
import google.generativeai as genai
video_file = genai.upload_file(path="meeting.mp4")
model = genai.GenerativeModel('gemini-3-pro')
prompt = "请总结这段视频的主要议题,并列出每个议题的开始时间。"
response = model.generate_content([prompt, video_file])
print(response.text)
4. 结构化输出 (JSON Mode)
为了方便程序处理,我们可以强制模型返回 JSON 格式的数据。
prompt = """
分析这段音频,提取出所有的待办事项。
请使用以下 JSON 格式返回:
{
"todos": [
{"task": "任务描述", "assignee": "负责人", "due_date": "截止日期"}
]
}
"""
response = model.generate_content([prompt, audio_file], generation_config={"response_mime_type": "application/json"})
print(response.text)