Gemini API 支持图片、视频、PDF 文档等多模态输入。本文简要介绍使用 Gemini API 处理图片、视频、PDF 文档的一些可能方法。通过 Inline data 方式传输图片/视频/文档数据#
图片输入#
图片可以通过 inline_data 方式和文本提示词一起提交,每次请求提交的图片文件数据最大 100MB。视频输入#
视频(video/mp4)可以通过 inline_data 方式和文本提示词一起提交,每次请求提交的视频文件数据最大 100MB。PDF 输入#
PDF 文档(最大 50MB)可以通过 inline_data 方式和文本提示词一起提交。通过外部 URL 方式传输图片/视频/文档数据#
如果图片/视频/文档等文件已经保存在云存储并且可以公开下载,可以直接传递文件下载 URL 给模型。 修改于 2026-01-15 08:35:39