AI 模型接口

本文档整理 AI 模型接口的常用调用方式，按原文档的一级目录和二级页面结构组织。接口风格兼容 OpenAI、Claude、Gemini 等常见 API 格式，并通过统一网关转发到不同上游模型服务。

基础信息

Base URL: https://api.infillm.com
鉴权方式: Authorization: Bearer <API_KEY>
兼容鉴权: Gemini 原生格式也可使用 ?key=<API_KEY>；Claude 原生格式也可使用 x-api-key: <API_KEY>
请求格式: JSON；音频转录、音频翻译等文件上传接口使用 multipart/form-data
流式输出: 支持流式的接口可传入 stream: true，Gemini 流式接口可使用 :streamGenerateContent?alt=sse

二级页面总览

一级目录	二级页面	方法与路径
音频 Audio	原生 Gemini 格式	`POST /v1beta/models/{model}:generateContent`
音频 Audio	原生 OpenAI 格式 / 文本转语音	`POST /v1/audio/speech`
音频 Audio	原生 OpenAI 格式 / 音频转录	`POST /v1/audio/transcriptions`
音频 Audio	原生 OpenAI 格式 / 音频翻译	`POST /v1/audio/translations`
聊天 Chat	原生 Claude 格式	`POST /v1/messages`
聊天 Chat	原生 Gemini 格式	`POST /v1beta/models/{model}:generateContent`
聊天 Chat	原生 OpenAI 格式 / ChatCompletions	`POST /v1/chat/completions`
聊天 Chat	原生 OpenAI 格式 / Responses	`POST /v1/responses`
补全 Completions	原生 OpenAI 格式	`POST /v1/completions`
嵌入 Embeddings	原生 OpenAI 格式	`POST /v1/embeddings`
嵌入 Embeddings	原生 Gemini 格式	`POST /v1/engines/{model}/embeddings`
图像 Images	原生 Gemini 格式	`POST /v1beta/models/{model}:generateContent`
图像 Images	OpenAI 聊天格式	`POST /v1/chat/completions`
图像 Images	原生 OpenAI 格式 / 生成图像	`POST /v1/images/generations`
图像 Images	原生 OpenAI 格式 / 编辑图像	`POST /v1/images/edits`
图像 Images	通义千问 OpenAI 格式 / 生成图像	`POST /v1/images/generations`
图像 Images	通义千问 OpenAI 格式 / 编辑图像	`POST /v1/images/edits`
模型 Models	列出模型	`GET /v1/models`、`GET /v1beta/models`
审查 Moderations	原生 OpenAI 格式	`POST /v1/moderations`
实时语音 Realtime	原生 OpenAI 格式	`GET /v1/realtime`
重排序 Rerank	创建重排序	`POST /v1/rerank`

通用错误

失败响应通常返回 JSON:

{
  "error": {
    "message": "错误信息",
    "type": "invalid_request_error",
    "code": "invalid_api_key"
  }
}

常见状态码:

状态码	说明
`400`	请求参数错误
`401`	API Key 无效或缺失
`429`	触发请求频率或额度限制
`500`	服务端或上游供应商异常

音频 Audio

音频接口用于语音转文本、音频翻译、文本转语音，以及 Gemini 原生 TTS 请求。

音频原生 Gemini 格式

Gemini 音频生成接口适合调用 gemini-2.5-flash-preview-tts 等支持语音输出的模型。

POST https://api.infillm.com/v1beta/models/{model}:generateContent

参数	位置	类型	必填	说明
`model`	path	string	是	模型名称
`contents`	body	array	是	Gemini 内容数组
`generationConfig`	body	object	是	生成配置，可包含 `responseModalities`、`speechConfig`

curl "https://api.infillm.com/v1beta/models/gemini-2.5-flash-preview-tts:generateContent" \
  -H "Authorization: Bearer $INFILLM_API_KEY" \
  -H "Content-Type: application/json" \
  -d '{
    "contents": [
      {
        "role": "user",
        "parts": [
          {"text": "请用自然的语气朗读：你好，欢迎使用 InfillM API。"}
        ]
      }
    ],
    "generationConfig": {
      "responseModalities": ["AUDIO"],
      "speechConfig": {
        "voiceConfig": {
          "prebuiltVoiceConfig": {
            "voiceName": "Kore"
          }
        }
      }
    }
  }'

音频原生 OpenAI 格式

文本转语音

POST https://api.infillm.com/v1/audio/speech

参数	类型	必填	说明
`model`	string	是	TTS 模型，例如 `tts-1`
`input`	string	是	要转换的文本，最长 4096 字符
`voice`	string	是	声音，可选 `alloy`、`echo`、`fable`、`onyx`、`nova`、`shimmer`
`response_format`	string	否	`mp3`、`opus`、`aac`、`flac`、`wav`、`pcm`，默认 `mp3`
`speed`	number	否	语速，范围 `0.25` 到 `4`，默认 `1`

curl https://api.infillm.com/v1/audio/speech \
  -H "Authorization: Bearer $INFILLM_API_KEY" \
  -H "Content-Type: application/json" \
  -o speech.mp3 \
  -d '{
    "model": "tts-1",
    "input": "你好，欢迎使用 InfillM API。",
    "voice": "alloy",
    "response_format": "mp3"
  }'

音频转录

POST https://api.infillm.com/v1/audio/transcriptions

请求类型: multipart/form-data

参数	类型	必填	说明
`file`	file	是	音频文件
`model`	string	是	转录模型，例如 `whisper-1`
`language`	string	否	ISO-639-1 语言代码，例如 `zh`、`en`
`prompt`	string	否	上下文提示词
`response_format`	string	否	`json`、`text`、`srt`、`verbose_json`、`vtt`，默认 `json`
`temperature`	number	否	采样温度
`timestamp_granularities[]`	string[]	否	时间戳粒度，可选 `word`、`segment`

curl https://api.infillm.com/v1/audio/transcriptions \
  -H "Authorization: Bearer $INFILLM_API_KEY" \
  -F file="@speech.mp3" \
  -F model="whisper-1" \
  -F language="zh" \
  -F response_format="json"

音频翻译

POST https://api.infillm.com/v1/audio/translations

请求类型: multipart/form-data

参数	类型	必填	说明
`file`	file	是	音频文件
`model`	string	是	翻译模型
`prompt`	string	否	上下文提示词
`response_format`	string	否	返回格式
`temperature`	number	否	采样温度

curl https://api.infillm.com/v1/audio/translations \
  -H "Authorization: Bearer $INFILLM_API_KEY" \
  -F file="@speech.mp3" \
  -F model="whisper-1"

聊天 Chat

聊天接口用于多轮对话、工具调用、流式生成和多模态理解。

聊天原生 Claude 格式

Anthropic Claude Messages API 格式。需要传入 anthropic-version 请求头。

POST https://api.infillm.com/v1/messages

参数	类型	必填	说明
`model`	string	是	Claude 模型 ID
`messages`	array	是	消息列表
`max_tokens`	integer	是	最大输出 token 数
`system`	string/array	否	系统提示词
`temperature`	number	否	采样温度，范围 `0` 到 `1`
`top_p`	number	否	nucleus sampling 参数
`top_k`	integer	否	Top-K 参数
`stream`	boolean	否	是否流式返回
`stop_sequences`	string[]	否	停止序列
`tools`	array	否	工具定义
`tool_choice`	object	否	工具选择策略
`thinking`	object	否	推理配置
`metadata`	object	否	元数据

curl https://api.infillm.com/v1/messages \
  -H "Authorization: Bearer $INFILLM_API_KEY" \
  -H "anthropic-version: 2023-06-01" \
  -H "Content-Type: application/json" \
  -d '{
    "model": "claude-3-5-sonnet-20241022",
    "max_tokens": 1024,
    "messages": [
      {"role": "user", "content": "用一句话解释 API 网关。"}
    ]
  }'

聊天原生 Gemini 格式

Gemini 原生接口用于文本聊天和图片、PDF、音频、视频等媒体识别。媒体输入使用 inlineData 的 base64 形式。

POST https://api.infillm.com/v1beta/models/{model}:generateContent

流式请求可使用:

POST https://api.infillm.com/v1beta/models/{model}:streamGenerateContent?alt=sse

参数	位置	类型	必填	说明
`model`	path	string	是	模型名称
`contents`	body	array	否	Gemini 内容数组
`generationConfig`	body	object	否	生成配置
`safetySettings`	body	array	否	安全配置
`tools`	body	array	否	工具定义
`systemInstruction`	body	object	否	系统指令

curl "https://api.infillm.com/v1beta/models/gemini-2.5-pro:generateContent" \
  -H "Authorization: Bearer $INFILLM_API_KEY" \
  -H "Content-Type: application/json" \
  -d '{
    "contents": [
      {
        "role": "user",
        "parts": [
          {"text": "用一句话介绍向量数据库。"}
        ]
      }
    ],
    "generationConfig": {
      "temperature": 0.7,
      "maxOutputTokens": 512
    }
  }'

媒体识别示例:

{
  "contents": [
    {
      "role": "user",
      "parts": [
        {"text": "请描述这张图片。"},
        {
          "inlineData": {
            "mimeType": "image/png",
            "data": "<base64-image>"
          }
        }
      ]
    }
  ]
}

聊天原生 OpenAI 格式

ChatCompletions 格式

POST https://api.infillm.com/v1/chat/completions

参数	类型	必填	说明
`model`	string	是	模型 ID
`messages`	array	是	对话消息列表
`temperature`	number	否	采样温度，默认 `1`，范围 `0` 到 `2`
`top_p`	number	否	nucleus sampling 参数，默认 `1`
`n`	integer	否	生成数量，默认 `1`
`stream`	boolean	否	是否使用 SSE 流式响应
`stream_options`	object	否	流式响应选项
`stop`	string/string[]	否	停止序列
`max_tokens`	integer	否	最大生成 token 数
`max_completion_tokens`	integer	否	最大补全 token 数
`presence_penalty`	number	否	存在惩罚，范围 `-2` 到 `2`
`frequency_penalty`	number	否	频率惩罚，范围 `-2` 到 `2`
`logit_bias`	object	否	调整指定 token 出现概率
`user`	string	否	终端用户标识
`tools`	array	否	工具定义
`tool_choice`	string/object	否	工具选择策略
`response_format`	object	否	输出格式约束
`seed`	integer	否	随机种子，需模型支持
`reasoning_effort`	string	否	推理强度，可选 `low`、`medium`、`high`
`modalities`	string[]	否	输出模态
`audio`	object	否	音频输出配置

curl https://api.infillm.com/v1/chat/completions \
  -H "Authorization: Bearer $INFILLM_API_KEY" \
  -H "Content-Type: application/json" \
  -d '{
    "model": "gpt-4o-mini",
    "messages": [
      {"role": "system", "content": "你是一个简洁的中文助手。"},
      {"role": "user", "content": "用一句话介绍向量数据库。"}
    ],
    "temperature": 0.7
  }'

Responses 格式

POST https://api.infillm.com/v1/responses

参数	类型	必填	说明
`model`	string	是	模型 ID
`input`	string/array	否	输入内容，可以是字符串或消息数组
`instructions`	string	否	系统级指令
`max_output_tokens`	integer	否	最大输出 token 数
`temperature`	number	否	采样温度
`top_p`	number	否	nucleus sampling 参数
`stream`	boolean	否	是否流式返回
`tools`	array	否	工具定义
`tool_choice`	string/object	否	工具选择策略
`reasoning`	object	否	推理配置
`previous_response_id`	string	否	上一轮响应 ID
`truncation`	string	否	截断策略，可选 `auto`、`disabled`

curl https://api.infillm.com/v1/responses \
  -H "Authorization: Bearer $INFILLM_API_KEY" \
  -H "Content-Type: application/json" \
  -d '{
    "model": "gpt-4o-mini",
    "input": "总结一下 API 网关的作用。"
  }'

压缩对话

POST https://api.infillm.com/v1/responses/compact

当对话上下文过长时，可使用压缩接口生成更短的上下文摘要。

curl https://api.infillm.com/v1/responses/compact \
  -H "Authorization: Bearer $INFILLM_API_KEY" \
  -H "Content-Type: application/json" \
  -d '{
    "model": "gpt-4o-mini",
    "input": [
      {"role": "user", "content": "这里是一段很长的历史对话..."}
    ]
  }'

补全 Completions

补全接口用于基于提示词生成文本，适合兼容旧版文本补全 API 的应用。

补全原生 OpenAI 格式

POST https://api.infillm.com/v1/completions

参数	类型	必填	说明
`model`	string	是	模型 ID
`prompt`	string/array	是	输入提示词
`max_tokens`	integer	否	最大输出 token 数
`temperature`	number	否	采样温度
`top_p`	number	否	nucleus sampling 参数
`n`	integer	否	返回候选数量
`stream`	boolean	否	是否流式返回
`stop`	string/array	否	停止序列
`suffix`	string	否	插入补全时追加在生成内容之后的文本
`echo`	boolean	否	是否在响应中回显提示词

curl https://api.infillm.com/v1/completions \
  -H "Authorization: Bearer $INFILLM_API_KEY" \
  -H "Content-Type: application/json" \
  -d '{
    "model": "gpt-3.5-turbo-instruct",
    "prompt": "把下面这句话改写得更专业：我们会很快处理你的问题。",
    "max_tokens": 128,
    "temperature": 0.3
  }'

新应用建议优先使用聊天接口。如果需要兼容已有的 OpenAI Completions 调用，可继续使用本接口。

嵌入 Embeddings

嵌入接口用于将文本转换为向量，常用于语义搜索、推荐、聚类和 RAG 检索。

嵌入原生 OpenAI 格式

POST https://api.infillm.com/v1/embeddings

参数	类型	必填	说明
`model`	string	是	嵌入模型 ID
`input`	string/string[]	是	输入文本，支持单条或批量
`encoding_format`	string	否	向量编码格式，可选 `float`、`base64`，默认 `float`
`dimensions`	integer	否	指定输出向量维度，需模型支持

curl https://api.infillm.com/v1/embeddings \
  -H "Authorization: Bearer $INFILLM_API_KEY" \
  -H "Content-Type: application/json" \
  -d '{
    "model": "text-embedding-3-small",
    "input": [
      "向量数据库用于语义检索。",
      "API 网关可以统一鉴权、计费和限流。"
    ]
  }'

嵌入原生 Gemini 格式

原文档将兼容引擎路径归在原生 Gemini 格式下，用于按 {model} 路径创建嵌入。

POST https://api.infillm.com/v1/engines/{model}/embeddings

参数	位置	类型	必填	说明
`model`	path	string	是	模型/引擎 ID
`model`	body	string	是	嵌入模型 ID
`input`	body	string/string[]	是	要嵌入的文本
`encoding_format`	body	string	否	向量编码格式，可选 `float`、`base64`
`dimensions`	body	integer	否	输出向量维度

curl https://api.infillm.com/v1/engines/text-embedding-3-small/embeddings \
  -H "Authorization: Bearer $INFILLM_API_KEY" \
  -H "Content-Type: application/json" \
  -d '{
    "model": "text-embedding-3-small",
    "input": "API 网关统一处理鉴权、限流和计费。"
  }'

图像 Images

图像接口用于根据提示词生成图像，或基于已有图像进行编辑。

图像原生 Gemini 格式

Gemini 图片生成，使用 Gemini generateContent 格式。

POST https://api.infillm.com/v1beta/models/{model}:generateContent

参数	位置	类型	必填	说明
`model`	path	string	是	模型名称
`contents`	body	array	是	Gemini 内容数组
`generationConfig`	body	object	是	生成配置，可包含 `responseModalities`、`imageConfig`

curl "https://api.infillm.com/v1beta/models/gemini-2.5-flash-image:generateContent" \
  -H "Authorization: Bearer $INFILLM_API_KEY" \
  -H "Content-Type: application/json" \
  -d '{
    "contents": [
      {
        "role": "user",
        "parts": [
          {"text": "draw a cat"}
        ]
      }
    ],
    "generationConfig": {
      "responseModalities": ["TEXT", "IMAGE"],
      "imageConfig": {
        "aspectRatio": "16:9",
        "imageSize": "4K"
      }
    }
  }'

图像 OpenAI 聊天格式

该二级页归在图像的原生 Gemini 格式下，但路径使用 OpenAI Chat Completions，用于以聊天请求体触发 Gemini 图片生成。

POST https://api.infillm.com/v1/chat/completions

参数	类型	必填	说明
`model`	string	是	图像模型 ID
`stream`	boolean	是	是否流式返回
`messages`	array	是	OpenAI 聊天消息数组
`extra_body`	object	否	额外上游参数
`contents`	array	是	Gemini 内容数组

curl https://api.infillm.com/v1/chat/completions \
  -H "Authorization: Bearer $INFILLM_API_KEY" \
  -H "Content-Type: application/json" \
  -d '{
    "model": "gemini-2.5-flash-image",
    "stream": true,
    "messages": [
      {"role": "user", "content": "draw a cat"}
    ],
    "contents": [
      {
        "role": "user",
        "parts": [
          {"text": "draw a cat"}
        ]
      }
    ]
  }'

图像原生 OpenAI 格式

生成图像

POST https://api.infillm.com/v1/images/generations

参数	类型	必填	说明
`prompt`	string	是	所需图像的文本描述
`model`	string	否	图像模型，例如 `dall-e-2`、`dall-e-3`、`gpt-image-1`
`n`	integer	否	生成数量，范围 `1` 到 `10`
`size`	string	否	图片尺寸，例如 `1024x1024`、`1536x1024`、`1024x1536`
`background`	string	否	背景透明度设置，仅部分模型支持
`moderation`	string	否	内容审核级别
`quality`	string	否	图像质量
`stream`	string	否	是否流式返回，需模型支持
`style`	string	否	图像风格
`user`	string	否	终端用户标识

curl https://api.infillm.com/v1/images/generations \
  -H "Authorization: Bearer $INFILLM_API_KEY" \
  -H "Content-Type: application/json" \
  -d '{
    "model": "gpt-image-1",
    "prompt": "一张极简产品海报，白色背景，玻璃质感的智能音箱，柔和自然光。",
    "size": "1024x1024"
  }'

编辑图像

POST https://api.infillm.com/v1/images/edits

请求类型: multipart/form-data

编辑图像用于基于已有图片和提示词生成修改后的结果。

参数	类型	必填	说明
`image`	file	是	要编辑的 PNG 图片，小于 4MB，通常要求方形
`mask`	file	否	遮罩图片，透明区域表示需要编辑的位置
`prompt`	string	是	所需图像的文本描述，最长 1000 字符
`n`	string	否	生成图像数量，范围 `1` 到 `10`
`size`	string	否	`256x256`、`512x512`、`1024x1024`
`response_format`	string	否	`url` 或 `b64_json`
`user`	string	否	终端用户标识
`model`	string	是	图像编辑模型

curl https://api.infillm.com/v1/images/edits \
  -H "Authorization: Bearer $INFILLM_API_KEY" \
  -F image="@image.png" \
  -F model="gpt-image-1" \
  -F prompt="A cute baby sea otter wearing a beret." \
  -F size="1024x1024"

图像通义千问 OpenAI 格式

通义千问图像接口复用 OpenAI 风格路径，但请求体采用百炼 qwen-image 系列结构。

注意: pricing 页面里的 qwen/qwen3.6-plus、qwen/qwen3.6-flash 是聊天模型，应使用 /v1/chat/completions；图像端点需要使用 qwen-image-plus、qwen-image-edit-plus 等图像模型，并且当前在线环境必须配置对应渠道。

生成图像

POST https://api.infillm.com/v1/images/generations

参数	类型	必填	说明
`model`	string	是	图像模型 ID，例如 `qwen-image-plus`
`input.messages`	array	是	消息结构，文本提示词放在 `content[].text`
`parameters.size`	string	否	图片尺寸，例如 `1328*1328`
`parameters.negative_prompt`	string	否	负向提示词
`parameters.prompt_extend`	boolean	否	是否启用提示词扩展
`parameters.watermark`	boolean	否	是否添加水印

curl https://api.infillm.com/v1/images/generations \
  -H "Authorization: Bearer $INFILLM_API_KEY" \
  -H "Content-Type: application/json" \
  -d '{
    "model": "qwen-image-plus",
    "input": {
      "messages": [
        {
          "role": "user",
          "content": [
            {"text": "一张极简产品海报，白色背景，玻璃质感的智能音箱，柔和自然光。"}
          ]
        }
      ]
    },
    "parameters": {
      "size": "1328*1328",
      "prompt_extend": true,
      "watermark": false
    }
  }'

编辑图像

POST https://api.infillm.com/v1/images/edits

参数	类型	必填	说明
`model`	string	是	图像编辑模型 ID，例如 `qwen-image-edit-plus`
`input.messages`	array	是	消息结构，支持 `content[].image` 和 `content[].text`
`parameters.n`	integer	否	生成数量
`parameters.size`	string	否	图片尺寸
`parameters.negative_prompt`	string	否	负向提示词
`parameters.prompt_extend`	boolean	否	是否启用提示词扩展
`parameters.watermark`	boolean	否	是否添加水印

curl https://api.infillm.com/v1/images/edits \
  -H "Authorization: Bearer $INFILLM_API_KEY" \
  -H "Content-Type: application/json" \
  -d '{
    "model": "qwen-image-edit-plus",
    "input": {
      "messages": [
        {
          "role": "user",
          "content": [
            {"image": "https://example.com/input.png"},
            {"text": "将背景替换为清晨的城市街道，保留主体。"}
          ]
        }
      ]
    },
    "parameters": {
      "n": 1,
      "prompt_extend": true,
      "watermark": false
    }
  }'

模型 Models

模型接口用于获取当前 API Key 可访问的模型列表。

列出模型 OpenAI 格式

GET https://api.infillm.com/v1/models

curl https://api.infillm.com/v1/models \
  -H "Authorization: Bearer $INFILLM_API_KEY"

响应示例:

{
  "object": "list",
  "data": [
    {
      "id": "gpt-4o-mini",
      "object": "model",
      "created": 1710000000,
      "owned_by": "openai"
    }
  ]
}

列出模型 Gemini 格式

GET https://api.infillm.com/v1beta/models

curl https://api.infillm.com/v1beta/models \
  -H "Authorization: Bearer $INFILLM_API_KEY"

响应示例:

{
  "models": [
    {
      "name": "models/gemini-pro",
      "version": "string",
      "displayName": "string",
      "description": "string",
      "inputTokenLimit": 0,
      "outputTokenLimit": 0,
      "supportedGenerationMethods": ["generateContent"]
    }
  ]
}

模型列表也会根据请求头自动选择兼容格式:

请求方式	返回格式
普通 Bearer Token	OpenAI 格式
携带 `x-api-key` 和 `anthropic-version`	Anthropic 格式
携带 `x-goog-api-key` 或 `key` 查询参数	Gemini 格式

审查 Moderations

审查接口用于检测输入内容是否可能违反安全策略。

审查原生 OpenAI 格式

POST https://api.infillm.com/v1/moderations

参数	类型	必填	说明
`input`	string/string[]	是	要审查的文本
`model`	string	否	审查模型，例如 `text-moderation-latest`

curl https://api.infillm.com/v1/moderations \
  -H "Authorization: Bearer $INFILLM_API_KEY" \
  -H "Content-Type: application/json" \
  -d '{
    "model": "text-moderation-latest",
    "input": "请检查这段文本是否合规。"
  }'

使用建议:

对用户生成内容、公开发布内容和工具执行前输入进行审查。
批量输入时，results 的顺序与 input 数组顺序一致。
flagged: true 表示建议拦截、降级或进入人工复核流程。

实时语音 Realtime

Realtime 接口用于建立 WebSocket 连接，实现低延迟语音或多模态实时对话。

实时语音原生 OpenAI 格式

GET wss://api.infillm.com/v1/realtime

参数	位置	类型	必填	说明
`model`	query	string	否	实时模型 ID，例如 `gpt-4o-realtime-preview`
`Authorization`	header	string	是	`Bearer <API_KEY>`

wscat -c "wss://api.infillm.com/v1/realtime?model=gpt-4o-realtime-preview" \
  -H "Authorization: Bearer $INFILLM_API_KEY"

注意事项:

Realtime 不是普通 HTTP JSON 接口，需要使用 WebSocket 客户端。
鉴权仍使用 API Key。
具体事件字段会随上游实时模型能力变化，接入时应保留对未知事件类型的兼容处理。

重排序 Rerank

重排序接口用于根据查询文本对候选文档重新排序，常用于 RAG 检索结果精排。

创建重排序

POST https://api.infillm.com/v1/rerank

参数	类型	必填	说明
`model`	string	是	重排序模型 ID
`query`	string	是	查询文本
`documents`	string[]/object[]	是	候选文档列表
`top_n`	integer	否	返回前 N 个结果
`return_documents`	boolean	否	是否在结果中返回文档内容，默认 `false`

curl https://api.infillm.com/v1/rerank \
  -H "Authorization: Bearer $INFILLM_API_KEY" \
  -H "Content-Type: application/json" \
  -d '{
    "model": "rerank-english-v2.0",
    "query": "什么是 API 网关？",
    "documents": [
      "API 网关统一处理鉴权、限流、路由和日志。",
      "向量数据库用于相似度搜索。",
      "负载均衡可以把请求分发到多个服务实例。"
    ],
    "top_n": 2,
    "return_documents": true
  }'

使用建议:

先用向量检索召回较多候选文档，再用 Rerank 精排。
top_n 应按业务需要控制，避免对过多文档做不必要的精排。
如果应用已保存原文，可将 return_documents 设为 false 以减少响应体积。

AI 模型接口

目录

基础信息

二级页面总览

通用错误

音频 Audio

音频 原生 Gemini 格式

音频 原生 OpenAI 格式

文本转语音

音频转录

音频翻译

聊天 Chat

聊天 原生 Claude 格式

聊天 原生 Gemini 格式

聊天 原生 OpenAI 格式

ChatCompletions 格式

Responses 格式

压缩对话

补全 Completions

补全 原生 OpenAI 格式

嵌入 Embeddings

嵌入 原生 OpenAI 格式

嵌入 原生 Gemini 格式

图像 Images

图像 原生 Gemini 格式

图像 OpenAI 聊天格式

图像 原生 OpenAI 格式

生成图像

编辑图像

图像 通义千问 OpenAI 格式

生成图像

编辑图像

模型 Models

列出模型 OpenAI 格式

列出模型 Gemini 格式

审查 Moderations

审查 原生 OpenAI 格式

实时语音 Realtime

实时语音 原生 OpenAI 格式

重排序 Rerank

创建重排序

音频原生 Gemini 格式

音频原生 OpenAI 格式

聊天原生 Claude 格式

聊天原生 Gemini 格式

聊天原生 OpenAI 格式

补全原生 OpenAI 格式

嵌入原生 OpenAI 格式

嵌入原生 Gemini 格式

图像原生 Gemini 格式

图像原生 OpenAI 格式

图像通义千问 OpenAI 格式

审查原生 OpenAI 格式

实时语音原生 OpenAI 格式