MetaChat API
  1. 文本生成
MetaChat API
  • 概述
  • OpenAI
    • 接入说明
    • 配置方法
    • 模型价格
    • 聊天(Chat)
      • Chat Completions 对象
      • Chat Completions 对象块
      • 创建 Chat Completions
    • 图像(Images)
      • 图像对象
      • 图像生成
      • 图片编辑
  • Claude
    • 接入说明
    • 配置方法
    • 模型价格
    • 聊天(Messages)
      • 消息
  • Gemini
    • 接入说明
    • 配置方法
    • 模型价格
    • 文本生成
      • 图片/视频/文档多模态输入
      • 文字输入
        POST
      • 图片输入
        POST
      • 流式输出
        POST
      • 多轮对话
        POST
      • 多轮对话(流式)
        POST
      • 配置参数
        POST
    • 图像生成
      • 使用 Gemini API 生成图像
      • 使用 Gemini API 编辑图像
      • 使用 Imagen API 生成图像
  • DeepSeek
    • 接入说明
    • 配置方法
    • 模型价格
    • 普通聊天
      • 多轮对话
      • 对话补全
    • 推理聊天
      • 推理模型
  • Grok
    • 接入说明
    • 配置方法
    • 模型价格
  • GLM
    • 接入说明
    • 配置方法
    • 模型价格
  • MiniMax
    • 接入说明
    • 配置方法
    • 模型价格
  • Kimi
    • 接入说明
    • 配置方法
    • 模型价格
  • Midjourney
    • 接入说明
    • 模型价格
    • 图像生成
      • 图像生成
    • 图像变换
      • 图像拆分
      • 图像微调(四宫格)
      • 图像重绘
      • 图像高清
      • 图像微调(单图)
      • 图像变焦
      • 图像平移
    • 图像处理
      • 图像描述
      • 图像融合
    • 视频生成
      • 视频生成
    • 任务查询
      • 查询图像生成结果
      • 查询视频生成结果
  • FLUX
    • 接入说明
    • 模型价格
    • 图像生成
      • 图像生成
    • 任务查询
      • 查询结果
  • Z-Image
    • 接入说明
    • 模型价格
    • 图像生成
      • 图像生成
    • 任务查询
      • 查询结果
  • Seedream
    • 接入说明
    • 模型价格
    • 图像生成
      • 图像生成
    • 任务查询
      • 查询结果
  • Account
    • 查询 API 元点余额
    • 查询 API 元点使用记录
  1. 文本生成

图片/视频/文档多模态输入

Gemini API 支持图片、视频、PDF 文档等多模态输入。本文简要介绍使用 Gemini API 处理图片、视频、PDF 文档的一些可能方法。

通过 Inline data 方式传输图片/视频/文档数据#

图片输入#

图片可以通过 inline_data 方式和文本提示词一起提交,每次请求提交的图片文件数据最大 100MB。
参考如下 Python 代码样例:
JavaScript 代码样例:

视频输入#

视频(video/mp4)可以通过 inline_data 方式和文本提示词一起提交,每次请求提交的视频文件数据最大 100MB。
视频文件支持的格式:
video/mp4
video/mpeg
video/mov
video/avi
video/x-flv
video/mpg
video/webm
video/wmv
video/3gpp
参考如下 Python 代码样例:
JavaScript 代码样例:

PDF 输入#

PDF 文档(最大 50MB)可以通过 inline_data 方式和文本提示词一起提交。
参考如下 Python 代码样例:
JavaScript 代码样例:

通过外部 URL 方式传输图片/视频/文档数据#

如果图片/视频/文档等文件已经保存在云存储并且可以公开下载,可以直接传递文件下载 URL 给模型。
参考如下 Python 代码样例:
JavaScript 代码样例:
修改于 2026-01-15 08:35:39
上一页
模型价格
下一页
文字输入
Built with