平台介绍

BigHub · 一站式大模型开发平台

平台定位

BigHub 大模型开放平台提供功能丰富、灵活易用、高性价比的大模型 API 服务，支持智能体开发与模型精调、推理、评测等，致力于构建高效通用的「一站式模型即服务」AI 开发新范式。

平台优势

模型矩阵

全模态、全尺寸、低幻觉、高精度

开发套件

覆盖模型与 AI 应用开发，全链路开箱即用

深耕场景

深度耦合业务的应用级 Agent，直达生产力

服务保障

充沛高并发算力资源，多层次安全防护机制

查看模型

平台已上架数十个模型，覆盖文本生成、语言推理、图像理解、视频生成、音视频处理等多场景。前往模型概览页面，即可查看所有模型的功能定位、模型价格、上下文长度等基本信息。

极速体验

您可前往 BigHub 体验中心，极速体验模型能力。

在对话框输入相关参数及 prompt，点击发送，即可看到对应模型所输出的结果。

文本模型

对话与推理

文生图模型

图像生成

智能体

多能力编排

点击页面左侧的按钮，可自由切换体验文本模态、多模态模型及多种智能体。

快速开始

快速开始将引导您逐步完成 API 调用流程，涵盖注册账号、环境配置、获取 API Key、SDK 使用等关键步骤。帮助您分钟级完成模型调用服务，并集成到您的业务或应用中。

开发指南

平台提供多种开发方式，满足不同开发者的需求和技术栈偏好。无论您是初学者还是经验丰富的开发者，都能找到适合的集成方案。

HTTP API 调用

标准 RESTful API 接口，支持所有编程语言和平台

官方 Python SDK

功能完整的 Python 开发工具包，支持异步调用和类型安全

官方 Java SDK

企业级 Java 开发工具包，支持高并发和高可用性

OpenAI SDK 兼容

兼容 OpenAI SDK，零学习成本快速迁移现有应用

LangChain 集成

集成 LangChain 框架，构建复杂的 AI 应用和智能代理

核心概念

GLM（General Language Model）是一款基于自回归填空的预训练语言模型。ChatGLM 系列模型支持相对复杂的自然语言指令，并且能够解决困难的推理类问题。该模型配备了易于使用的 API 接口，允许开发者轻松将其融入各类应用，广泛应用于智能客服、虚拟主播、聊天机器人等诸多领域。

查看模型的上下文限制，或使用 Tokenizer 工具估算上下文长度。

重要提醒

以上内容主要适用于 GLM-4 系列语言模型。对于多模态模型，输入内容有严格长度限制，若超出限制，系统将提示「prompt 超长」。

Token 是模型处理文本的基本单位。中文与英文的 token 折算比例不同，请求与回复的 token 数量将影响计费。建议在开发时注意上下文长度与 token 估算。

上下文窗口指模型单次请求可接受的最大 token 数量。不同模型的上下文长度不同，请在模型概览页面查看具体限制，并在构造请求时勿超出该限制。

模型概览

开始使用 · 查看平台已上架模型

模型一览

若需要看模型价格，请直接前往价格页面。

文本模型

文本模型是一类专注于处理和生成自然语言的模型，涵盖了语言理解与推理能力，能够自动处理海量文本数据并进行逻辑推导。智谱的文本模型结合了强大的语言模型和推理模型，使得系统不仅能理解和生成文本内容，还能进行高层次的推理和判断。

模型	定位	特点	上下文	最大输出
GLM-4.5-Flash 即将下线	免费模型	支持深度思考模式支持最长128K的上下文处理	128K	96K
GLM-4-Flash-250414	免费模型	超长上下文处理能力多语言支持支持外部工具调用	128K	16K

视觉模型

视觉模型是一类用于处理图像或视频信息的模型，用于识别、分析与决策。视觉理解模型侧重理解内容、识别物体与场景关系；视觉推理模型则结合图像与语言进行逻辑判断、因果分析与多步推理，适用于图文问答、图像描述、多模态对齐等场景。

模型	定位	特点	上下文	最大输出
GLM-4.6V	旗舰视觉推理	视觉推理模型 SOTA 原生支持工具调用超长上下文	128K	32K
GLM-OCR	轻量图文解析	性能 SOTA，高精度高效率支持多种常见复杂文档解析	单图≤10 MB，PDF≤50 MB	—
AutoGLM-Phone	手机智能助理框架	支持用自然语言自动完成 App 操作任务支持完整操作指令	20K	2048

图像生成模型

图像生成模型是一类通过学习海量图像数据，实现从文本生成高质量图片的模型，广泛应用于视觉内容创作、游戏美术、产品设计、医学影像合成等领域。

模型	定位	特点	多分辨率
GLM-Image	旗舰图像生成	复杂指令遵循与知识密集场景更强文字渲染开源 SOTA，汉字尤其出色	支持
CogView-4	图像生成	高质量图像生成风格多样化，细节丰富	支持
CogView-3-Flash	免费模型	创意丰富多样推理速度快	支持

视频生成模型

视频生成模型是一类通过学习时序视觉数据，从文本、图像或其他视频素材生成动态视频内容的模型，广泛应用于影视制作、虚拟人、动画生成、数字营销等领域。

模型	定位	特点	多模态支持	多分辨率
CogVideoX-3	高智能旗舰	主观清晰度大幅提升更好的指令遵循、物理真实模拟现实、3D 风格场景表现提升新增首尾帧生成功能	图像、文本、首尾帧	支持

音视频模型

音视频模型涵盖语音识别、语音合成、音视频理解与生成等能力，可用于实时转写、多语种翻译、虚拟主播、有声内容制作等场景。

向量模型

向量模型将文本映射为高维向量，用于语义检索、相似度计算与 RAG 等应用。平台提供多种向量模型，支持不同维度与语言。

其他模型

模型	类型	说明	上下文	并发
CodeGeeX-4	代码模型	适用于代码自动补全任务	128K	32k
Rerank	重排序模型	计算文本之间的 score 值，对召回结果进行重排序	4K	—

即将弃用模型

我们已经宣布了以下模型的弃用日期。在这些模型弃用后，我们会将它们自动路由至新的模型。请用户注意在弃用日期之前，将您的模型编码更新为最新版本，以确保服务的顺畅过渡。

模型	弃用时间	指向模型
GLM-Z1 系列	2025年11月15日	—
GLM-4-0520	2025年12月30日	—

快速开始

开始使用 · 从注册到第一次 API 调用

本指南将帮助您快速上手 BigHub 开放平台，从注册账号到发起第一次 API 调用，只需几分钟即可完成。

开始使用

1 注册账号

访问 BigHub 开放平台，点击右上角的「注册/登录」按钮，按照提示完成账号注册流程。完成登录/注册后，即可开启开发之旅。

2 获取 API Key

登录后，在个人中心页面，点击 API Key，创建一个新的 API Key。请妥善保管 Key，创建后仅展示一次。

3 环境准备

根据您的开发语言安装对应 SDK 或配置 HTTP 请求环境。平台支持 Python、Java 等官方 SDK，也兼容 OpenAI SDK 及 LangChain 等生态。

4 发起第一次调用

在请求头中携带 Authorization: Bearer <API_KEY>，调用聊天补全接口即可完成第一次 API 调用。也可先在体验中心进行对话测试。

探索更多功能

流式输出

启用流式输出，获得更自然的对话体验。

{ "model": "glm-5", "messages": [ { "role": "user", "content": "你好，请介绍一下自己。" } ], "stream": true }

多模态输入

使用 GLM-4.6V 等模型处理图像和文本的混合输入。

{ "model": "glm-4.6v", "messages": [ { "role": "user", "content": [ { "type": "text", "text": "请描述这张图片。" }, { "type": "image_url", "image_url": { "url": "https://..." } } ] } ] }

常见问题

如何处理 API 调用错误？

请根据返回的错误码与错误信息排查。常见原因包括 API Key 无效、模型名错误、参数超限等。可查阅 API 文档中的错误码说明。

如何优化 API 调用成本？

可选用更适合场景的模型规格、合理设置 max_tokens、利用缓存与批处理等方式控制 token 消耗。详见价格页面与计费说明。

如何处理长文本输入？

不同模型有上下文长度限制，请勿超出该限制。可对长文本进行分段、摘要或使用支持更长上下文的模型。

如果您在使用过程中遇到任何问题，可以查阅完整文档或联系我们的技术支持。

核心参数

开始使用 · 接口调用参数说明

在与模型进行交互时，你可以通过调整不同的参数来控制模型的输出，以满足不同场景下的需求。理解这些核心参数将帮助你更好地利用模型的能力。

快速参考

参数	类型	默认值	描述
do_sample	布尔值	true	是否对输出进行采样，以增加多样性。
temperature	浮点数	依赖模型	控制输出的随机性，值越高越随机。
top_p	浮点数	依赖模型	通过核采样控制多样性，建议与 temperature 二选一。
max_tokens	整数	依赖模型	限制单次调用生成的最大 token 数。
stream	布尔值	false	是否以流式方式返回响应。
thinking	对象	{"type": "enabled"}	是否开启思维链深度思考，仅 GLM-4.5 及以上支持。

参数详解

do_sample

do_sample 是一个布尔值（true 或 false），用于决定是否对模型的输出进行采样。

true（默认值）：根据每个 token 的概率分布进行随机采样，增加文本的多样性和创造性。适用于内容创作、对话等场景。

false：采用贪心策略，总是选择概率最高的下一个 token。输出确定性高，适用于需要精确、事实性回答的场景。

最佳实践：

需要可复现、确定性的输出时，设为 false。
希望模型生成更多样、更有趣的内容时，设为 true，并配合 temperature 或 top_p 使用。

temperature

temperature（温度）参数控制着模型输出的随机性。

较低的值（如 0.2）：概率分布更「尖锐」，输出更具确定性、更保守。
较高的值（如 0.8）：概率分布更「平缓」，输出更具随机性和多样性。

最佳实践：

在需要严谨、事实准确的场景（如知识问答），建议使用较低的 temperature。
在需要创意的场景（如内容创作），可以尝试较高的 temperature。
建议 temperature 和 top_p 只使用其中一个。

top_p

top_p（核采样）通过从累积概率超过阈值的最小 token 集合中进行采样来控制多样性。

较低的值（如 0.2）：限制采样范围，输出更具确定性。
较高的值（如 0.9）：扩大采样范围，输出更具多样性。

最佳实践：

如果希望在保证内容质量的同时获得一定的多样性，top_p 是一个很好的选择（推荐值 0.8～0.95）。
通常不建议同时修改 temperature 和 top_p。

max_tokens

max_tokens 用于限制模型单次调用生成的最大 token 数量。GLM-4.6 最大支持 128K 输出长度，GLM-4.5 最大支持 96K 输出长度，建议设置不小于 1024。Token 是文本的基本单位，通常 1 个 token 约等于 0.75 个英文单词或 1.5 个中文字符。设置合适的 max_tokens 可以控制响应长度和成本，避免过长的输出。如果模型在达到 max_tokens 限制前完成回答，会自然结束；如果达到限制，输出可能被截断。

作用：防止生成过长文本，控制 API 调用成本。
注意：max_tokens 限制的是生成内容的长度，不包括输入。

最佳实践：

根据应用场景合理设置 max_tokens。如果需要简短回答，可设为较小的值（如 50）。

stream

stream 为布尔值，决定是否以流式方式返回响应。设为 true 时可获得更自然的对话体验，适用于实时对话场景。

thinking

用于控制是否开启思维链深度思考。开启后会强制思考。

disabled：关闭思维链。

最佳实践：

在需要模型进行复杂推理、规划时，建议开启。
对于简单任务，可关闭以获得更快响应。

HTTP API 调用

开发指南

注意：使用 GLM 编码套餐时，需要配置专属的 Coding 端点 https://open.bighub.cn/api/coding/paas/v4 而非通用端点 https://open.bighub.cn/api/paas/v4/。

注意：Coding API 端点仅限 Coding 场景，并不适用通用 API 场景，请区分使用。

平台提供基于 RESTful 架构的应用接口，通过标准 HTTP 协议与模型服务交互。无论使用何种编程语言或框架，均可通过 HTTP 请求调用各类大模型能力。

核心优势

跨平台兼容

支持所有支持 HTTP 协议的编程语言和平台

标准协议

基于 RESTful 设计，遵循 HTTP 标准，易于理解和使用

灵活集成

可轻松嵌入现有系统与工作流

实时调用

请求响应模式，便于实时交互与流式输出

获取 API Key

访问 BigHub 开放平台
注册并登录您的账户
在 API Key 管理页面创建 API Key
复制您的 API Key 以供使用

建议将 API Key 设置为环境变量替代硬编码到代码中，以提高安全性。

API 基础信息

请求端点(通用API)

https://open.bighub.cn/api/paas/v4/

请求头要求

Content-Type: application/json Authorization: Bearer YOUR_API_KEY

支持的鉴权方式

最简单的鉴权方式，直接使用您的 API Key：

curl --location 'https://open.bighub.cn/api/paas/v4/chat/completions' \ --header 'Authorization: Bearer YOUR_API_KEY' \ --header 'Content-Type: application/json'

基础调用示例

简单对话

向 /chat/completions 发送 messages 即可完成单轮对话。

流式响应

请求体中设置 stream: true，接口将采用 SSE 流式返回内容。

多轮对话

在 messages 数组中依次追加 user / assistant 消息，即可实现多轮对话上下文。

常用编程语言示例

可在 API 文档各接口页的「Try it」或示例代码中查看 curl、Python、Java 等语言的调用示例。

错误处理

常见错误码

请参考 API 文档中的「错误码」章节，根据返回的 code 与 message 进行重试或降级处理。

实践建议

定期轮换 API Key
实施指数退避重试机制
记录详细的错误日志
设置合理的超时和重试次数
监控 API 调用频率和成功率，跟踪响应时间和错误率，设置告警机制

官方 Python SDK

开发指南

智谱 AI 官方 Python SDK 是一个功能强大、易于使用的 Python 开发工具包，专为与智谱 AI 的各种人工智能模型进行交互而设计，为 Python 开发者提供便捷、高效的 AI 模型集成方案。

最新 Python SDK 版本为 0.2.0，请及时更新以获取最新功能和修复。

核心优势

简单易用

Pythonic 的 API 设计，完善的文档和示例，让你快速上手

功能完整

支持智谱 AI 全系列模型，包括语言、视觉、图像生成等

高性能

异步支持、连接池管理，优化的网络请求处理

类型安全

完整的类型提示，IDE 友好，减少开发错误

支持的功能

对话聊天：支持单轮和多轮对话，流式和非流式响应
函数调用：让 AI 模型调用您的自定义函数
视觉理解：图像分析、视觉问答
图像生成：文本生成图像、编辑等
文本嵌入：获取文本向量，用于 RAG、检索等场景

技术规格

SDK 支持 Python 3.8+，提供同步与异步接口，兼容智谱开放平台全部模型能力。

环境要求

Python 3.8 及以上版本，建议使用 3.10+ 以获得更好的类型提示体验。

快速开始

安装 SDK

使用 pip 安装：

pip install zhipuai

安装完成后可通过 import zhipuai 验证。

获取 API Key

在开放平台控制台创建 API Key，并建议通过环境变量 ZHIPUAI_API_KEY 配置。

创建客户端

from zhipuai import ZhipuAI client = ZhipuAI(api_key="your-api-key")

基础对话

调用 client.chat.completions.create 传入 model 与 messages 即可完成单轮对话。

流式对话

设置 stream=True，接口返回流式迭代器，可逐块处理回复内容。

多轮对话

在 messages 中依次追加 role: user 与 role: assistant 消息，即可保持对话上下文。

完整示例

可在官方仓库或文档中查看从安装到调用的完整示例代码。

错误处理

SDK 会抛出标准异常，建议使用 try/except 捕获并根据错误码进行重试或提示。

高级配置

可配置超时、代理、自定义 HTTP 客户端等，详见 SDK 文档。

高级功能

推理 (thinking)

支持深度思考等模型的推理过程输出。

函数调用 (Function Calling)

定义工具函数并传入 tools，由模型决定是否调用。

网络搜索工具

可结合网络搜索等工具扩展模型能力。

多模态处理

支持图像理解、图像生成、视频生成、文本嵌入等能力，接口与文档中均有对应说明。

流式处理

使用流式接口时，可配合回调或迭代器逐块处理内容，适用于长文本生成与实时展示。

官方 Java SDK

开发指南

智谱 AI 官方 Java SDK 是智谱 AI 官方提供的 Java 开发工具包，专为与智谱 AI 的各种人工智能模型进行交互而设计，为 Java 开发者提供便捷、高效的 AI 模型集成方案。

最新 Java SDK 版本为 0.3.0，请及时更新以获取最新功能和修复。

核心优势

企业级

专为企业应用设计，支持高并发、高可用性

易于集成

简洁的 API 设计，完善的文档，快速集成到现有项目

高性能

连接池与请求优化，适配生产环境

类型安全

完整的类型定义，与 IDE 友好协作

支持的功能

对话聊天：支持单轮和多轮对话，流式和非流式响应
函数调用：让 AI 模型调用您的自定义函数
视觉理解：图像分析、视觉问答
图像生成：根据文本描述生成高质量图像
视频生成：根据文本生成创意视频内容
语音处理：语音转文字、文字转语音
文本嵌入：文本向量化，支持语义检索
智能助手：构建专业级 AI 助手应用

技术规格

环境要求

Java 版本：Java 1.8 或更高版本
构建工具：Maven 3.6+ 或 Gradle 6.0+
网络：支持 HTTPS 连接

依赖管理

通过 Maven 或 Gradle 引入官方依赖，详见快速开始中的添加依赖。

快速开始

添加依赖

Maven 项目在 pom.xml 中添加智谱 AI Java SDK 依赖；Gradle 项目在 build.gradle 中声明依赖。

获取 API Key

在开放平台控制台创建 API Key，建议通过环境变量或配置注入，避免硬编码。

创建客户端

ZhipuAiClient client = new ZhipuAiClient.Builder() .apiKey(System.getenv("ZHIPUAI_API_KEY")) .build();

基础对话

调用 client.chatCompletions().create() 传入模型与消息列表即可完成单轮对话。

流式对话

使用流式 API 可逐块接收回复，适用于长文本与实时展示。

完整示例

官方仓库提供从依赖到调用的完整示例项目，可克隆后直接运行。

高级功能

函数调用 (Function Calling)

定义工具函数并传入请求，由模型决定是否调用。

定义和使用函数

按照 SDK 文档中的工具定义格式注册函数，并在对话中传入 tools 参数。

多模态处理

支持图像理解、图像生成、文本嵌入等多模态能力。

图像理解

传入图片 URL 或 base64，结合文本进行视觉问答与分析。

图像生成

调用图像生成接口，传入模型（如 CogView）、提示词与尺寸，获取生成结果。

CreateImageRequest request = CreateImageRequest.builder() .model(Constants.ModelCogView3) .prompt("一幅美丽的山水画,中国传统风格,水墨画") .size("1024x1024") .build(); ImageResponse response = client.images().createImage(request);

文本嵌入

调用嵌入接口获取文本向量，用于检索、RAG 等场景。

Claude API 兼容

开发指南

智谱提供与 Claude API 兼容的接口，这意味着您可以使用现有的 Anthropic SDK 代码，只需要简单修改 API 密钥和基础 URL，就能无缝切换到智谱的模型服务。

GLM Coding Plan 编码套餐上线，支持含 Claude Code、Cline 等近 10 种全球主流编码工具，搭配智谱新旗舰 GLM-4.5，20 元起包月畅享！

核心优势

零学习成本

如果您已经熟悉 Anthropic SDK，可以立即上手使用

快速迁移

现有 Claude 应用如 Claude Code 等可以快速迁移到智谱平台

从 Claude 迁移至智谱

只需将 API 密钥替换为智谱开放平台的 API Key，并将请求的 base URL 指向智谱提供的 Claude 兼容端点即可，其余调用方式与 Anthropic 官方一致。

详细步骤

获取 API Key

访问 智谱开放平台
注册并登录您的账户
在 API Keys 管理页面创建 API Key
复制您的 API Key 以供使用

建议将 API Key 设置为环境变量：export ANTHROPIC_API_KEY=your-api-key 替代硬编码到代码中，以提高安全性。

代码示例

以下示例使用智谱 Claude 兼容端点 https://open.bigmodel.cn/api/anthropic/v1/messages，请求头使用 x-api-key 传递您的智谱 API Key。

curl https://open.bigmodel.cn/api/anthropic/v1/messages \ --header "x-api-key: your-zhipuai-api-key" \ --header "content-type: application/json" \ -d '{"model":"claude-3-5-sonnet-20241022","max_tokens":1024,"messages":[{"role":"user","content":"Hello"}]}'

import anthropic client = anthropic.Anthropic( api_key="your-zhipuai-api-key", base_url="https://open.bigmodel.cn/api/anthropic/v1" ) message = client.messages.create( model="claude-3-5-sonnet-20241022", max_tokens=1024, messages=[{"role": "user", "content": "Hello"}] )

import Anthropic from "@anthropic-ai/sdk"; const client = new Anthropic({ apiKey: "your-zhipuai-api-key", baseURL: "https://open.bigmodel.cn/api/anthropic/v1" }); const message = await client.messages.create({ model: "claude-3-5-sonnet-20241022", max_tokens: 1024, messages: [{ role: "user", content: "Hello" }] });

// 使用 Anthropic Java SDK，设置 baseUrl 为智谱兼容端点 // ApiKey 使用智谱开放平台 API Key Anthropic client = new Anthropic( "your-zhipuai-api-key", "https://open.bigmodel.cn/api/anthropic/v1" );

OpenAI API 兼容

开发指南

智谱 AI 提供 OpenAI API 兼容接口，您只需修改 API Key 和 base_url，即可将现有基于 OpenAI SDK 的应用无缝切换到智谱 AI 平台。

快速迁移现有的 OpenAI 应用
使用熟悉的开发模式和工具
享受智谱 AI 模型的强大能力
保持代码的一致性和可维护性

⚠

某些场景下智谱 AI 与 OpenAI 接口仍存在差异，但不影响整体兼容性。

核心优势

零学习成本

如果您已经熟悉 OpenAI SDK，可以立即上手使用

快速迁移

现有 OpenAI 应用可以快速迁移到智谱 AI 平台

生态兼容

兼容 OpenAI 生态系统中的各种工具和框架

持续更新

跟随 OpenAI SDK 更新，保持最新功能支持

环境要求

Python 版本：Python 3.7.1 或更高版本。

OpenAI SDK：OpenAI SDK 版本不低于 1.0.0。

安装 OpenAI SDK

使用 pip 安装

pip install openai

使用 poetry 安装

poetry add openai

快速开始

获取 API Key

在智谱 AI 开放平台控制台创建并获取 API Key。

创建客户端

使用 OpenAI SDK 时，将 base_url 设置为智谱 AI 兼容端点，api_key 设置为您的智谱 AI API Key：

from openai import OpenAI client = OpenAI( api_key="your-zhipuai-api-key", base_url="https://open.bigmodel.cn/api/paas/v4/" )

基础使用示例

简单对话

调用方式与 OpenAI 一致，仅需使用智谱 AI 的模型名（如 glm-4、glm-5）：

response = client.chat.completions.create( model="glm-5", messages=[{"role": "user", "content": "你好"}] )

流式响应

设置 stream=True 即可获取流式输出。

多轮对话

在 messages 中按顺序传入多轮 user/assistant 消息即可保持上下文。

高级功能

推理 (thinking)

支持深度思考等模型的推理过程输出，具体以模型能力为准。

函数调用 (Function Calling)

通过 tools 参数传入函数定义，模型可决定是否调用。

图像理解

在消息中传入图像 URL 或 base64，支持视觉模型进行图像理解。

参数配置

常用参数说明

model、messages、max_tokens、temperature、stream 等与 OpenAI 接口含义一致，具体以平台文档为准。

实践建议

迁移指南

从 OpenAI 迁移

如果您已经在使用 OpenAI API，迁移到智谱 AI 非常简单：

原来的 OpenAI 代码：

from openai import OpenAI client = OpenAI(api_key="sk-...") # OpenAI API Key # base_url 使用默认值

迁移到智谱 AI，只需要修改两个地方：

from openai import OpenAI client = OpenAI( api_key="your-zhipuai-api-key", # 替换为智谱 AI API Key base_url="https://open.bigmodel.cn/api/paas/v4/" # 添加智谱 AI base_url )

其他代码保持不变：

response = client.chat.completions.create( model="glm-5", # 使用智谱 AI 模型 messages=[{"role": "user", "content": "你好"}] )

LangChain 集成

开发指南

智谱支持兼容 LangChain 框架，让您可以使用 LangChain 的强大功能来构建复杂的 AI 应用。

LangChain 是一个用于开发由语言模型驱动的应用程序的框架。智谱与 LangChain 的集成让您能够：

使用 LangChain 的链式调用功能
构建智能代理和工具调用
实现复杂的对话记忆管理

核心优势

框架生态

接入 LangChain 丰富的生态系统和工具链

快速开发

使用预构建的组件快速构建复杂 AI 应用

环境要求

Python 版本

Python 3.8 或更高版本

LangChain 版本

langchain_community 版本在 0.0.32 以上

⚠

请确保 langchain_community 的版本在 0.0.32 以上，以获得最佳的兼容性和功能支持。

安装依赖

基础安装

安装 LangChain 和相关依赖：

pip install langchain langchainhub httpx_sse

安装 OpenAI 兼容包（用于对接智谱 OpenAI 兼容接口）：

pip install langchain-openai

完整安装

若需使用 Agent、工具等完整能力，可额外安装 langchain-community 等包，版本请保持 0.0.32 及以上。

快速开始

获取 API Key

在智谱开放平台控制台创建并获取 API Key。

基础配置

使用 ChatOpenAI 时，将 openai_api_base 指向智谱接口，openai_api_key 设置为您的智谱 API Key，model 使用智谱模型名（如 glm-5）：

from langchain_openai import ChatOpenAI llm = ChatOpenAI( model="glm-5", openai_api_key="your-zhipuai-api-key", openai_api_base="https://open.bigmodel.cn/api/paas/v4/" )

基础使用示例

简单对话

通过 llm.invoke() 或 llm([HumanMessage(content="...")]) 发起单轮对话。

使用提示模板

使用 LangChain 的 PromptTemplate 与 ChatPromptTemplate 构建提示，再传入 LLM 完成调用。

对话记忆管理

使用 ConversationBufferMemory、ConversationBufferWindowMemory 等管理多轮对话上下文。

高级功能

智能代理 (Agent)

结合 LangChain 的 Agent 与工具，让模型根据输入决定是否调用工具并组合多步推理。

# 使用代理 result = agent_executor.invoke({"input": "北京今天天气怎么样?然后帮我查询股票价格"}) print(result['output'])

自定义工具

定义 Tool 并注册到 Agent，实现搜索、计算、API 调用等自定义能力。

流式输出

设置 streaming=True 并传入 StreamingStdOutCallbackHandler，即可实时流式输出回复：

from langchain_openai import ChatOpenAI from langchain.callbacks.streaming_stdout import StreamingStdOutCallbackHandler from langchain.schema import HumanMessage # 创建带流式输出的 LLM llm = ChatOpenAI( model="glm-5", openai_api_key="your-zhipuai-api-key", openai_api_base="https://open.bigmodel.cn/api/paas/v4/", streaming=True, callbacks=[StreamingStdOutCallbackHandler()] ) # 发送消息 (输出会实时流式显示) response = llm([HumanMessage(content="写一首关于春天的诗")])

实践建议

建议将 API Key 置于环境变量，合理设置 max_tokens 与超时，生产环境配合重试与错误处理；大量调用时可考虑缓存与限流。

开发指南

多种开发方式

开发方式

平台提供多种开发方式，满足不同开发者的需求与习惯。

HTTP API 调用

标准 RESTful API，支持所有编程语言

官方 Python SDK

功能完善的 Python 工具包，支持异步调用与类型安全

官方 Java SDK

企业级 Java 工具包，支持高并发与高可用

OpenAI SDK 兼容

兼容 OpenAI SDK，便于快速迁移

LangChain 集成

与 LangChain 集成，构建复杂 AI 应用

迁移至 GLM-5

从旧版模型迁移

迁移说明

若您当前使用的是旧版模型，可参考文档中的迁移指南，将应用迁移至 GLM-5 系列模型，以获得更好的效果与性能。

GLM-5

智谱新一代旗舰基座模型，面向 Agentic Engineering 与长程智能体任务。

概览

GLM-5 是智谱新一代的旗舰基座模型，面向 Agentic Engineering 打造，能够在复杂系统工程与长程 Agent 任务中提供可靠生产力。在 Coding 与 Agent 能力上，GLM-5 取得开源 SOTA 表现，在真实编程场景的使用体感逼近 Claude Opus 4.5，擅长复杂系统工程与长程 Agent 任务，是通用 Agent 助手的理想基座。

定位

旗舰基座模型

输入模态

文本

输出模态

文本

上下文窗口

200K

最大输出 Tokens

128K

能力支持

思考模式

支持深度思考与思维链，复杂推理更稳定。

流式输出

实时返回生成内容，提升交互体验。

Function Call

原生工具调用，对接业务 API 与插件生态。

上下文缓存

长上下文场景下降低重复计算与成本。

结构化输出

按 Schema 约束输出 JSON，便于系统集成。

MCP

支持模型上下文协议，扩展工具与数据源。

GLM in Excel

在表格场景中直接调用模型能力。

详细介绍

更大基座，更强智能

GLM-5 在基座规模与训练策略上持续迭代，在通用理解、推理与指令遵循上达到旗舰水准，可作为各类上层应用与 Agent 的统一语言核心。

Coding 能力：对齐 Claude Opus 4.5

在真实编程场景中，GLM-5 在代码生成、调试、多文件协作等任务上表现突出，体感与 Claude Opus 4.5 接近，适合作为 IDE 与 CI 流程中的主力模型。

Agent 能力：SOTA 级长程任务执行

面向多步、长链条任务，GLM-5 在规划、反思与工具使用上更稳健，适合构建可长时间运行的自动化 Agent 与工作流。

使用资源

通过 BigHub 开放平台调用时，请使用模型名 glm-5（或与控制台一致的模型编码）。计费与配额以控制台「价格」「财务」为准。

更多参数说明可在左侧菜单查看「核心参数」与「HTTP API 调用」文档。

调用示例 · 基础调用

非流式请求示例（POST /paas/v4/chat/completions）：

curl --request POST \
  --url https://open.bighub.cn/api/paas/v4/chat/completions \
  --header 'Content-Type: application/json' \
  --header 'Authorization: Bearer <your-api-key>' \
  --data '{
    "model": "glm-5",
    "messages": [
      { "role": "user", "content": "请为智谱AI开放平台写一句宣传语" }
    ],
    "thinking": { "type": "enabled" },
    "max_tokens": 65536,
    "temperature": 1.0
  }'

调用示例 · 流式调用

将请求体中 "stream": true 开启 SSE 流式输出，逐块返回内容，适合对话与长文本场景。

curl --request POST \
  --url https://open.bighub.cn/api/paas/v4/chat/completions \
  --header 'Content-Type: application/json' \
  --header 'Authorization: Bearer <your-api-key>' \
  --data '{
    "model": "glm-5",
    "messages": [
      { "role": "user", "content": "用一句话介绍 GLM-5" }
    ],
    "stream": true,
    "thinking": { "type": "enabled" },
    "temperature": 1.0
  }'

GLM-5-Turbo

面向 OpenClaw 龙虾场景深度优化的基座模型，强化工具调用、长链路与持续性任务能力。

概览

GLM-5-Turbo 是面向 OpenClaw 龙虾场景深度优化的基座模型。其从训练阶段就针对龙虾任务的核心需求进行专项优化，增强如工具调用、指令遵循、定时与持续性任务、长链路执行等核心能力，使其在复杂、动态、长链路的任务中也真正具备可执行性。

定位

龙虾增强模型

输入模态

文本

输出模态

文本

上下文窗口

200K

最大输出 Tokens

128K

能力支持

思考模式

提供多种思考模式，覆盖不同任务需求。

流式输出

支持实时流式响应，提升用户交互体验。

Function Call

强大的工具调用能力，支持多种外部工具集成。

上下文缓存

智能缓存机制，优化长对话性能。

结构化输出

支持 JSON 等结构化格式输出，便于系统集成。

MCP

可灵活调用外部 MCP 工具与数据源，扩展应用场景。

详细介绍

1 龙虾原生模型

从训练数据构造到优化目标设计，我们围绕真实 Agent 工作流，系统构造了多类龙虾任务场景，使模型在复杂、动态、长链路的任务中真正具备可执行性。重点增强了以下核心能力：

Tool Calling——精准调用，不掉链子：GLM-5-Turbo 强化了对外部工具与各类 Skills 的调用能力，在多步任务中更稳定、更可靠，让龙虾任务从对话走向执行。
Instruction Following——复杂指令拆解更强：对复杂、多层、长链路指令具备更强的理解与拆解能力，能准确识别目标、规划步骤，并支持多智能体协同分工。
定时与持续性任务——更懂时间维度，长任务不中断：针对定时触发、持续执行、长时运行等场景优化，更好理解时间约束，在复杂长任务中保持连续执行。
高吞吐长链路——执行更快更稳：面向大数据吞吐与长逻辑链的龙虾任务，进一步提升执行效率与响应稳定性，更贴近真实业务流程。

2 龙虾场景基准 ZClawBench

随着 OpenClaw 龙虾生态普及，在龙虾场景下评测模型能力已成为行业关注焦点。基于大量真实 OpenClaw 用例分析，我们发布面向龙虾场景的端到端 Agent 评测基准 ZClawBench。

当前 OpenClaw 任务类型已覆盖安装配置、代码开发、信息搜集、数据分析、内容创作等多元场景；用户群体从早期开发者扩展到效率办公、金融从业、运维、内容创作与投研等。Skills 使用占比在短期内由约 26% 快速提升至约 45%，表明 Agent 能力正朝模块化、技能化生态演进。

ZClawBench：龙虾场景能力评测

雷达图从多维度对比模型在龙虾场景下的表现，典型维度包括：安装配置、开发与运维、数据分析与总结、办公和日常事务、信息查询和搜集等。GLM-5-Turbo 在多项维度上表现突出。

ZClawBench 的题库与测试轨迹已全面公开，欢迎业界共同验证与完善。

使用资源

调用时请使用模型名 glm-5-turbo（或与控制台一致的编码）。计费以控制台为准。

体验中心：快速测试模型在业务场景上的效果（见控制台体验入口）。
接口文档：左侧菜单「API 文档」→ 对话补全等页面查看 API 调用方式。
接入 OpenClaw：可在 OpenClaw 中配置本平台 API Key 与端点，调用 GLM-5-Turbo。

调用示例

基础调用（POST /paas/v4/chat/completions，模型 glm-5-turbo）：

curl --request POST \
  --url https://open.bighub.cn/api/paas/v4/chat/completions \
  --header 'Content-Type: application/json' \
  --header 'Authorization: Bearer <your-api-key>' \
  --data '{
    "model": "glm-5-turbo",
    "messages": [
      { "role": "user", "content": "智谱AI开放平台" }
    ],
    "thinking": { "type": "enabled" },
    "max_tokens": 65536,
    "temperature": 1.0
  }'

流式调用时在请求体中增加 "stream": true 即可。

GLM-4.7

智谱最新旗舰文本模型，面向 Agentic Coding 强化编码、长程规划与工具协同。

概览

GLM-4.7 系列是智谱最新旗舰模型，面向 Agentic Coding 场景强化了编码能力、长程任务规划与工具协同，并在多个公开基准的当期榜单中取得开源模型中的出色表现。通用能力提升，回复更简洁自然，写作更具沉浸感。在执行复杂智能体任务、工具调用时指令遵循更强，Artifacts 与 Agentic Coding 的前端美感与长程任务完成效率进一步提升。

GLM-4.7 GLM-4.7-FlashX

定位

旗舰版

输入模态

文本

输出模态

文本

上下文窗口

200K

最大输出 Tokens

128K

能力支持

思考模式

提供多种思考模式，覆盖不同任务需求。

流式输出

支持实时流式响应，提升用户交互体验。

Function Call

强大的工具调用能力，支持多种外部工具集成。

上下文缓存

智能缓存机制，优化长对话性能。

结构化输出

支持 JSON 等结构化格式输出，便于系统集成。

MCP

可灵活调用外部 MCP 工具与数据源，扩展应用场景。

详细介绍

1 Coding 能力全面提升

GLM-4.7 在编程、推理与智能体三个维度实现显著突破：

更强的编程能力：在多语言编码与终端 Agent 场景中表现更稳；在 Claude Code、Kilo Code、TRAE、Cline、Roo Code 等编程框架下，「先思考再行动」机制使复杂任务更可靠。
前端审美提升：网页、PPT、海报等生成质量更好，视觉更协调。
更强的工具调用能力：BrowseComp 网页任务、T²-Bench 交互式工具调用等评测中表现突出，整体对齐或超越主流闭源与开源标杆。
推理能力提升：数学与推理类任务显著进步；在 HLE 等高难度推理基准上相对 GLM-4.6 有明显提升。
通用能力增强：对话更简洁自然、有温度；写作与角色扮演更具沉浸感。

在 LMArena 等公开对战评测中，GLM-4.7 在 WebDev 等赛道位居前列，开源模型中表现领先（具体排名以当期榜单为准）。

2 真实编程场景下的体感提升

在主流基准中，GLM-4.7 代码能力对齐 Claude Sonnet 4.5 一线水平：SWE-bench Verified 取得开源领先；LiveCodeBench V6 达到约 84.9 的开源 SOTA 分数；SWE-bench Verified 约 73.8%（较 GLM-4.6 提升约 5.8%），SWE-bench Multilingual 约 66.7%（提升约 12.9%），Terminal Bench 2.0 约 41%（提升约 16.5%）。以下为 128K 上下文下部分公开基准对比（数值供参考，以官方最新发布为准）：

基准	GLM-4.7	GLM-4.6	说明
AIME 25	95.7	93.9	数学推理
LiveCodeBench v6	84.9	82.8	实时代码
GPQA-Diamond	85.7	81.0	科学问答
HLE	42.0	—	高难度综合
SWE-bench Verified	73.8%	68.0%	软件工程修复
Terminal Bench 2.0	41.0	26.5	终端任务
τ²-Bench	87.4	71.2	工具交互
BrowseComp	52.0	45.7	网页浏览任务

子页签如「实际编程任务表现」「思考能力的可控进化」「综合任务执行能力」「前端审美提升」等可在控制台与官方发布中查看更细案例与对比。

使用资源

调用模型名建议使用 glm-4.7 或与控制台一致的编码；FlashX 等变体以控制台展示为准。计费与配额见「价格」「财务」。

体验中心：快速验证编码与对话效果
API 文档：左侧「API 文档」→ 对话补全
编码套餐：Agentic Coding 场景可搭配编码套餐与专属端点

调用示例

curl --request POST \
  --url https://open.bighub.cn/api/paas/v4/chat/completions \
  --header 'Content-Type: application/json' \
  --header 'Authorization: Bearer <your-api-key>' \
  --data '{
    "model": "glm-4.7",
    "messages": [
      { "role": "user", "content": "用 Python 写一个读取 JSON 文件的函数" }
    ],
    "thinking": { "type": "enabled" },
    "max_tokens": 8192,
    "temperature": 0.7
  }'

流式调用请设置 "stream": true。

GLM-4.6

智谱高性能文本模型，适合编码、长上下文与智能体等场景；以下为能力说明与接入参考，业务效果请以实测为准。

概览

GLM-4.6 是智谱面向通用与专业任务优化的语言模型。公开技术介绍中常提及总参数量约 355B、激活参数量约 32B（具体以官方发布为准）。相对 GLM-4.5，在多项核心能力上有所加强，更适合长文档、代码与工具协同类 workload。

编码能力：在公开基准与常见编程任务中，整体表现可与 Claude Sonnet 4 等一线模型对标；具体能否满足您的工程标准，建议用真实仓库与评审流程验证。
上下文长度：由 128K 提升至 200K，便于长代码、多文件 diff、长对话 Agent 等场景（仍需注意成本与延迟）。
推理与工具：推理链路可增强，并支持在推理过程中结合工具调用，适合需要「想一步、查一步」的任务。
搜索与 Agent：在工具调用、搜索类 Agent 框架中表现更稳，适合构建研究助手、运维排查等流程。
写作与对话：文风、可读性与角色扮演等维度更贴近常见偏好，适合客服话术、营销文案、剧本等（涉合规内容请配合审核策略）。
多语言与翻译：跨语言理解与翻译任务上相对前代有提升，适合国际化产品与双语工作流。

输入模态

文本

输出模态

文本

上下文窗口

200K

最大输出 Tokens

128K

能力支持

以下为平台侧常见能力说明；是否开通以控制台与接口文档为准。

思考模式

可按任务开启推理过程，适合数学、复杂决策与分步规划（会增加 token 与耗时）。

流式输出

支持 SSE 流式返回，便于对话类产品逐字展示与提前中断。

Function Call

结构化工具调用，对接自有 API、数据库查询与业务动作。

上下文缓存

长对话场景可降低重复前缀成本（具体策略见计费说明）。

结构化输出

JSON 等格式约束，便于对接下游系统与自动化流水线。

搜索 / 工具扩展

可与网络搜索、MCP 等能力组合，构建研究型或运维型 Agent。

Benchmark

基准分数在固定评测集与协议下测得，不等同于您业务上的成功率；上线前请用自有样本做 A/B 或人工抽检。

1. 综合评测

在覆盖推理、代码、Agent 交互与网页任务等多类能力的权威基准中（如 AIME 25、GPQA、LiveCodeBench v6、HLE、SWE-bench Verified、BrowseComp、Terminal-Bench、τ²-Bench 等），GLM-4.6 在多数榜单上与 Claude Sonnet 4 处于同一梯队。下表为约 128K 上下文设定下的参考数值（来源为公开技术材料，版本更新后可能变化）：

基准	GLM-4.6	GLM-4.5（参考）	侧重
AIME 25	98.6	—	数学竞赛式推理
GPQA	84.5	—	研究生级科学问答
LiveCodeBench v6	82.8	—	实时代码生成
HLE	30.4	—	高难度综合
BrowseComp	45.1	—	浏览与信息整合
SWE-bench Verified	75.9%	—	真实仓库补丁修复
Terminal-Bench	40.5	—	终端命令类任务
τ²-Bench	71.2	—	多轮工具交互

不同机构榜单的模型版本、采样参数与评测脚本不一致时，分数不可横向简单换算。

2. 真实编程评测

SWE-bench Verified / Multilingual 等任务使用真实开源 Issue 与补丁，更贴近「修 bug、改需求」的工程形态；LiveCodeBench 侧重竞赛/leetcode 风格的新题生成。Terminal-Bench 则反映 shell 级自动化能力。

实用建议：

用本仓库 3～5 个典型 PR（小功能、重构、修 bug）做盲测，对比人工合并意愿。
对 Agent 产品：记录「工具调用成功率、重试次数、任务完成率」，比单次分数更有参考价值。
长上下文场景：在接近真实 token 长度的输入上测延迟与截断行为，避免仅在短 prompt 上验收。

使用资源

体验中心：在控制台快速验证模型在业务 prompt 上的效果，再决定是否接入 API。
接口文档：左侧「API 文档」→ 对话补全；参数与限流以各接口页为准。
模型与计费：模型 ID 以控制台可用列表为准（常见为 glm-4.6）；费用见「价格」「财务」。

调用示例

以下为通用对话补全示例；请将 API Key 与模型名替换为控制台实际值。Python / Java 可与「HTTP API 调用」「官方 SDK」章节对照。

cURL · 基础调用

curl --request POST \
  --url https://open.bighub.cn/api/paas/v4/chat/completions \
  --header 'Content-Type: application/json' \
  --header 'Authorization: Bearer <your-api-key>' \
  --data '{
    "model": "glm-4.6",
    "messages": [
      { "role": "user", "content": "用 Python 实现一个简单的 LRU 缓存类" }
    ],
    "max_tokens": 4096,
    "temperature": 0.7
  }'

Python（OpenAI 兼容客户端示意）

与「OpenAI API 兼容」文档一致：将 base_url 指向 BigHub 网关、model 填控制台可用 ID。

from openai import OpenAI
client = OpenAI(
    api_key="your-api-key",
    base_url="https://open.bighub.cn/api/paas/v4",
)
r = client.chat.completions.create(
    model="glm-4.6",
    messages=[{"role": "user", "content": "你好"}],
)
print(r.choices[0].message.content)

流式调用设置 "stream": true；推理场景可配置 thinking（见核心参数）。

GLM-4.5

面向智能体应用的 MoE 文本模型系列；部分型号已进入下线窗口，新项目建议优先评估 GLM-4.7 / GLM-4.6 或 GLM-5。

概览

GLM-4.5 与 GLM-4.5-Air 等同系列型号，定位为智能体与工具协同场景的基础模型，均采用 MoE（混合专家） 架构。公开资料中：GLM-4.5 总参数量约 3550 亿、激活约 320 亿；GLM-4.5-Air 总参数量约 1060 亿、激活约 120 亿（以控制台与官方说明为准）。

训练上，系列模型通常在超大规模通用语料上预训练，并针对代码、推理、智能体等方向做后训练；上下文长度扩展至 128K；强化学习用于增强推理、编码与 Agent 表现。产品侧强调对工具调用、网页浏览、软件工程、前端开发等任务的优化，可与 Claude Code、Roo Code 等编码助手类工具集成，也可通过标准工具接口接入任意 Agent 应用。

推理侧提供混合推理模式：可通过 thinking.type 选择 enabled（思考模式，适合复杂推理与多步工具）或 disabled（非思考模式，低延迟直出）。默认策略以接口文档为准。

输入模态

文本

输出模态

文本

GLM-4.5 系列模型

重要提示：据平台模型列表，GLM-4.5、GLM-4.5-X 等部分型号标注为即将下线。新建项目建议优先选用 GLM-4.7 等旗舰文本模型，并在控制台确认当前可购与可调用型号。

下列定位为常见产品描述，实际计费、速率与是否开放以控制台为准。

GLM-4.5

系列中的高容量推理向型号，参数量大，适合复杂推理、长链工具调用与高质量代码生成等对上限要求高的场景。

GLM-4.5-Air

高性价比、轻量激活，在成本与延迟敏感、仍希望保留较强通用与编码能力的场景中常用。

GLM-4.5-X

侧重高性能与强推理、响应更快的一类变体（具体相对 Air/标准版的差异以控制台说明为准）。

GLM-4.5-AirX

在 Air 路线上的加速向产品，平衡轻量、性能与首 token 时延。

GLM-4.5-Flash

面向免费或低门槛试用的型号，适合功能验证与轻量任务；能力与配额通常弱于付费型号，且可能随运营策略调整。

能力支持

深度思考

开启思考模式后，可进行多步推理再作答或再调工具，适合数学、规划类任务（增加耗时与 token）。

流式输出

支持 SSE 流式返回，便于对话与编码助手类产品实时展示。

Function Call

结构化工具调用，对接检索、计算、业务 API 等。

上下文缓存

长对话场景可配合缓存策略降低重复前缀成本（见计费说明）。

结构化输出

可约束 JSON 等格式，便于流水线解析。

浏览 / 搜索协同

可与网页阅读、网络搜索等能力组合（以平台实际开放能力为准）。

Benchmark

榜单为固定评测集上的相对分数，不能替代您业务上的成功率与满意度。

总览

GLM-4.5 系列在公开基准中常与同代闭源模型在编码、推理、Agent 工具交互等维度处于可比区间；不同榜单的模型版本与评测脚本不一致时，不宜跨表直接排名。选型建议：列出 2～3 个与业务相关的任务类型，用自有样本做小规模对比。

更高的参数效率

MoE 通过稀疏激活在相近效果下控制单次推理算力：Air / AirX 等型号以更小激活规模服务高频、低成本调用；GLM-4.5 全量型号则偏向「上限」场景。实际 QPS 与单价请以控制台为准。

低成本、高速度

Flash、Air 等线路通常单价更低、首包更快，适合对话轮次多、对延迟敏感的产品；若任务涉及长推理或多轮工具，需在体验中心实测是否需升级到标准版或新一代模型。

真实体验

建议在真实 prompt、真实工具链下评估：同一批用户问题上的采纳率、工具调用成功率、平均轮次与成本。体验中心会消耗 token；失败时可检查配额或选购资源包，详见控制台提示。

使用资源

体验中心：快速验证各子型号在业务话术上的表现。
API 文档：对话补全、thinking、stream 等参数见「API 文档」与「核心参数」。
模型 ID：以控制台列表为准（如 glm-4.5、glm-4.5-air 等，实际字符串可能随版本变化）。
输出长度：GLM-4.5 系列常见最大输出约 96K tokens（与 GLM-4.6 的 128K 不同），请按需设置 max_tokens。

调用示例

思考模式

复杂任务可开启 thinking；简单问答可关闭以降低延迟与费用。

{
  "model": "glm-4.5",
  "messages": [{ "role": "user", "content": "分析以下需求并给出实现步骤…" }],
  "thinking": { "type": "enabled" },
  "max_tokens": 4096
}

示例代码

cURL（模型名请替换为控制台可用 ID）：

curl --request POST \
  --url https://open.bighub.cn/api/paas/v4/chat/completions \
  --header 'Content-Type: application/json' \
  --header 'Authorization: Bearer <your-api-key>' \
  --data '{
    "model": "glm-4.5",
    "messages": [
      { "role": "user", "content": "用 JavaScript 写一个防抖函数" }
    ],
    "thinking": { "type": "disabled" },
    "max_tokens": 2048,
    "temperature": 0.6
  }'

OpenAI 兼容（Python）：

from openai import OpenAI
client = OpenAI(api_key="your-api-key", base_url="https://open.bighub.cn/api/paas/v4")
r = client.chat.completions.create(
    model="glm-4.5-air",
    messages=[{"role": "user", "content": "你好"}],
)
print(r.choices[0].message.content)

流式请加 "stream": true。

GLM-4.6V

旗舰视觉推理与多模态 Agent 底座；模型 ID、配额与价格以控制台为准。

概览

GLM-4.6V 系列是 GLM 在多模态方向的重要迭代，包含 GLM-4.6V（旗舰）、GLM-4.6V-FlashX（轻量高速）、GLM-4.6V-Flash（免费体验向）等子型号。训练上下文提升至 128K tokens；在视觉理解精度上达到同参数量级的公开领先水平，并在架构上将 Function Call（工具调用）与视觉能力原生融合，便于从「视觉感知」走向「可执行行动」，为业务侧多模态 Agent 提供统一接口。

GLM-4.6V GLM-4.6V-FlashX

定位

旗舰视觉推理（约 106B）

输入模态

视频、图像、文本、文件

输出模态

文本

上下文窗口

128K

价格说明：GLM-4.6V 系列计费规则请前往控制台价格页查看；不同子型号单价可能不同。

能力支持

深度思考

复杂图文、多步推理场景可配合思考模式（以接口参数为准）。

流式输出

支持流式返回描述与推理过程，提升交互体验。

原生多模态工具调用

图像、截图、文档页等可直接参与工具参数与结果回注，减少「先 OCR 再调工具」的链路损耗。

视频与多图

支持视频帧理解与多图联合问答（具体路数与大小限制见 API 文档）。

文档与图表

复杂版式、表格与图表的结构化理解与问答。

结构化输出

可约束 JSON 等格式，便于对接业务系统。

典型场景	功能项	能力描述
发票、证件、手写表单录入	通用 OCR 识别	印刷体、手写体、楷体、艺术字等
工程造价清单、报关单、财务报表	复杂表格解析	多层表头、合并单元格、跨页表格等
手机随手拍、现场单据	抗干扰识别	透视变形、模糊、光照不均、复杂背景、折痕、污渍等
商品价格采集、分拣、货架检测	商品属性识别	品牌、类目、材质、颜色、款式等多维属性
内容打标、素材分析	图像内容分析	场景类型、人物行为、氛围情绪、拍摄角度等语义
屏幕/商品/工业质检	瑕疵缺陷检测	污渍、破损、变形、色差、划痕等
AIGC 反推、素材标签	图片反推提示词（Image2Prompt）	理解画面内容、风格、构图与光影，生成可复用绘画提示词
养殖、施工现场等	物体检测与计数	定位多目标并计数，适用于密集、遮挡、尺度多变场景（需结合评测验证精度）

使用资源

体验中心：上传图/视频快速验证效果。
API 文档：对话补全等多模态入参格式见「API 文档」。
模型名：以控制台为准（如 glm-4.6v 等）。

详细介绍

原生多模态工具调用

传统工具调用多基于纯文本，面对图像、视频、复杂版式文档时易产生信息折损与流水线复杂。GLM-4.6V 围绕「图像即参数、结果即上下文」设计，将多模态输入原生纳入工具链路。

输入多模态：图片、截图、文档页等可直接作为工具参数，无需先全部转成文字描述。
输出再理解：工具返回的统计图、页面截图、商品图等，模型可再次视觉理解并融入后续推理，形成感知—理解—执行的闭环。

典型应用方向：

场景 1 · 智能图文混排与内容创作：基于论文、报告、PPT 等多模态素材生成结构清晰、配图合理的社媒或知识库内容；可自动检索配图并对候选图做相关性「视觉审稿」。
场景 2 · 视觉驱动的识图购物与导购 Agent：用户拍图即问，结合检索与推荐工具完成导购闭环。
场景 3 · 前端复刻与多轮视觉迭代：根据截图多轮对话调整布局与样式（输出仍为文本/代码，需人工验收后上线）。

同规模开源 SOTA

公开技术材料中，GLM-4.6V 在相近参数规模的视觉理解榜单上常处于领先区间；不同评测集与协议下分数不可直接对比。选型请以业务场景下的抽检与 A/B 为准。

调用示例

基础与流式

纯文本调用与文本模型相同；流式增加 "stream": true。

curl --request POST \
  --url https://open.bighub.cn/api/paas/v4/chat/completions \
  --header 'Content-Type: application/json' \
  --header 'Authorization: Bearer <your-api-key>' \
  --data '{
    "model": "glm-4.6v",
    "messages": [
      { "role": "user", "content": "用三句话介绍视觉大模型的典型用途" }
    ],
    "max_tokens": 1024
  }'

多模态理解

messages 中 content 可为多段数组：文本 + 图片 URL 或 Base64（具体字段以当前 API 文档为准）。

{
  "model": "glm-4.6v",
  "messages": [
    {
      "role": "user",
      "content": [
        { "type": "text", "text": "图中主要文字与布局是什么？" },
        { "type": "image_url", "image_url": { "url": "https://example.com/sample.png" } }
      ]
    }
  ],
  "max_tokens": 2048
}

若使用 OpenAI 兼容客户端，将 base_url 指向 BigHub，模型名填控制台可用视觉模型 ID。

API 指引

使用概述

API 参考文档描述了您可用于与 BigHub 大模型开放平台交互的 RESTful API 详情信息，您也可以通过各接口页的「Try it」按钮调试 API。

BigHub 开放平台提供标准 HTTP API 接口，支持多种编程语言与开发环境，同时提供 SDK 便于开发者调用。

API 端点

BigHub 开放平台通用 API 端点如下：

https://open.bighub.cn/api/paas/v4

注意：使用 GLM 编码套餐时，需配置专属 Coding 端点 https://open.bighub.cn/api/coding/paas/v4，而非通用端点 https://open.bighub.cn/api/paas/v4。Coding API 端点仅限 Coding 场景，不适用于通用 API 场景，请区分使用。

身份验证

开放平台 API 使用标准 HTTP Bearer 进行身份验证。认证需要 API 密钥，您可在 API Key 页面创建或管理。

在 HTTP 请求头中提供 API Key，格式如下：

Authorization: Bearer YOUR_API_KEY

建议将 API Key 设置为环境变量，避免在代码中硬编码，以保障安全。

调试工具

API 详情页提供丰富的调用示例与调试工具，您可点击「Try it」快速发起 API 调用。

可通过切换输入类型下拉框选择不同请求体格式。
可切换标签页查看不同语言的示例代码。
可点击「添加一项」或「添加新属性」增加更多 API 属性。

切换标签页后，如需修改此前已填写的属性，请重新输入或重新选择一次，以确保请求体正确。

调用示例

以下为对话补全接口的示例，请将 YOUR_API_KEY 替换为您的 API Key，glm-5 等模型名以控制台实际可用为准。

curl -X POST 'https://open.bighub.cn/api/paas/v4/chat/completions' \ -H 'Content-Type: application/json' \ -H 'Authorization: Bearer YOUR_API_KEY' \ -d '{ "model": "glm-5", "messages": [ { "role": "system", "content": "你是一个有用的AI助手。" }, { "role": "user", "content": "你好，请介绍一下自己。" } ], "temperature": 1.0, "stream": true }'

from zhipuai import ZhipuAI client = ZhipuAI(api_key="YOUR_API_KEY") response = client.chat.completions.create( model="glm-5", messages=[ {"role": "system", "content": "你是一个有用的AI助手。"}, {"role": "user", "content": "你好，请介绍一下自己。"} ], temperature=1.0, stream=True ) for chunk in response: print(chunk.choices[0].delta.content or "", end="")

import cn.bighub.sdk.BigHubClient; import cn.bighub.sdk.chat.ChatCompletionRequest; BigHubClient client = new BigHubClient("YOUR_API_KEY"); ChatCompletionRequest req = ChatCompletionRequest.builder() .model("glm-5") .message("system", "你是一个有用的AI助手。") .message("user", "你好，请介绍一下自己。") .temperature(1.0f) .stream(true) .build(); client.chat().createStreaming(req).forEach(chunk -> System.out.print(chunk.getContent()) );

API 指引

错误码

调用 BigHub 大模型开放平台 API 时，响应中的错误信息由两部分组成：外层为 HTTP 状态码，内层为响应体中定义的业务错误码，用于更具体地描述错误原因。

HTTP 状态错误码

状态码	原因	解决方法
200	业务处理成功	—
400	参数错误	检查接口参数是否正确
400	文件内容异常	检查 jsonl 文件内容是否符合要求
401	鉴权失败或 Token 超时	确认 API Key 和鉴权 token 是否正确生成
404	微调功能未开放	联系客服以开通此功能
404	微调任务不存在	确保微调任务 ID 正确
429	接口请求并发超额	调整请求频率或联系商务扩大并发数
429	上传文件频率过快	短暂等待后重新请求
429	账户余额已用完	进行账户充值以确保余额充足
429	账户异常	账户存在违规行为，请联系平台客服解除相关锁定
429	终端账号异常	终端用户存在违规行为，账号已被锁定
434	暂无 API 权限（微调 API 及文件管理 API 为内测阶段）	等待接口正式开放或请联系平台客服申请内测
435	文件大小超过 100MB	使用小于 100MB 的 jsonl 文件或分批上传
500	服务器处理请求时发生错误	稍后重试或联系客服

业务错误码

错误分类	错误码	错误信息
基础错误	500	内部错误
身份验证错误	1000	身份验证失败
身份验证错误	1001	Header 中未收到 Authentication 参数，无法进行身份验证
身份验证错误	1002	Authentication Token 非法，请确认 Authentication Token 正确传递
身份验证错误	1003	Authentication Token 已过期，请重新生成/获取
身份验证错误	1004	通过 Authentication Token 的验证失败
账户错误	1110	您的账户当前处于非活动状态，请检查账户信息
账户错误	1111	您的账户不存在
账户错误	1112	您的账户已被锁定，请联系客服解锁
账户错误	1113	您的账户已欠费，请充值后重试
账户错误	1120	无法成功访问您的账户，请稍后重试
账户错误	1121	账户存在违规行为，账号已被锁定

错误响应示例

以下是 curl 请求的响应报文示例，其中 401 为 HTTP 状态码，1002 为业务错误码。

< HTTP/2 401 < date: Mon, 01 Jan 2024 00:00:00 GMT < content-type: application/json < server: nginx/1.21.6 {"error":{"code":"1002","message":"Authorization Token非法,请确认Authorization Token正确传递"}}

注

使用流式（SSE）调用时，若 API 在推理过程中异常终止，不会返回上述错误码，而是在响应体的 finish_reason 参数中返回异常原因，详情请参考 finish_reason 的参数说明。

速率限制

API 调用频率与并发说明

为保障平台服务稳定性、模型资源的公平使用以及整体服务质量，BigHub 大模型开放平台对 API 调用实施速率限制（Rate Limits）机制。下面对速率限制的触发场景、常见错误码及应对方式进行说明。

通用 API 用户：可通过控制台「速率限制」查看您账户目前各模型可调用的速率。
GLM Coding 套餐用户：速率（并发数）限制与套餐等级相关，平台会根据资源动态调整，低峰期享有更高速率，基本原则 Max > Pro > Lite。

一、什么是速率限制？

速率限制是指平台在一定时间窗口内，对单个账户或调用方的 API 并发请求数等进行限制。

并发请求数限制：对同一账户的并发调用数量设限。
按模型划分：不同模型设有独立的并发限制。
按权益与套餐划分：不同用户权益等级、不同套餐对应不同的并发限制。
高峰期策略：高峰期的动态限流与平台级保护策略。

二、为什么需要速率限制？

速率限制是业界大模型 API 的通用做法，其核心目的包括：

保障平台整体稳定性：防止瞬时高并发请求对模型服务造成冲击；通过设置速率限制，可最大程度帮助用户保持稳定体验。
确保用户间公平使用：避免个别账户在高并发场景下占用过多资源，影响其他用户正常调用。
防范异常流量或误用：包括程序异常、无限重试、非预期高频调用等情况。

三、开放平台速率限制机制说明

平台从多个维度对 API 调用进行限速与并发控制。

1. 按用户权益等级 & 模型维度划分的并发限制

如果您是通用 API 用户，平台对不同模型设置了不同的并发数上限。您可通过控制台速率限制查看您账户目前各模型可调用的速率。

通用文本/对话模型
图像/视频生成模型
向量模型
实时音视频模型

同时，速率限制量级与您的用户权益等级相关，可通过控制台用户权益查看自己的积分与权益等级。

2. 按 GLM Coding 套餐等级划分的并发限制

若您使用 GLM Coding 套餐，并发限制与套餐等级（Lite / Pro / Max）相关：

Lite：建议同时进行单个项目的开发。
Pro：建议同时进行 1～2 个项目的开发。
Max：建议同时进行 2+ 个项目的开发。

套餐用户在低峰期将享有更高的并发权益（动态提升），能够支撑更多数量的项目开发。

3. 高峰期的限流策略

在业务高峰时段（如工作日下午等），若某一账户在短时间内发起大量并发请求，超出该账户在对应模型上的并发上限，平台将按账户维度实施限流，而非使该模型对所有人不可用。

4. 平台级服务过载说明

除账户自身的速率限制外，在以下情况下平台可能触发平台级保护机制：

某模型在短时间内整体访问量激增；
底层算力资源处于高负载状态；
平台进行系统维护、扩容或异常恢复。

此类情况属于平台服务过载，与单一账户的调用行为无直接关系。

四、相关错误码

1. 错误码 1302：触发用户速率限制

错误含义：您的账户已达到速率限制，请您控制请求频率。

典型原因：

当前模型的并发请求数已达到账户上限；
短时间内请求过于密集。

建议处理方式：

降低并发请求数量；
增加请求队列或排队机制。

2. 错误码 1305：平台服务过载

表示平台侧因整体负载或保护策略触发了限流，与单账户并发无直接关系。建议稍后重试或错峰调用。

五、如何合理应对速率限制？

1. 控制并发与请求频率

在客户端控制同时发起的请求数，避免在短时间内集中发起大量请求；可配合退避重试（如指数退避）使用。

2. 异步请求或批处理 API

对于非实时场景，可优先使用异步接口或批处理 API，提交任务后轮询结果，从而降低对实时并发的依赖。

六、如何申请提升速率限制？

GLM Coding 套餐用户：按订阅套餐等级统一并发，暂不支持申请调整。

若您使用的是通用 API，且业务确实需要更高并发能力，可通过控制台提交申请：

进入控制台【速率限制调整申请】；
填写以下信息：需要调整的模型、期望增加的并发数量、实际使用场景与业务说明。

平台将在 10 个工作日内完成审核，审核结果将通过注册手机号或站内通知告知。

对话补全

与指定模型对话，模型根据请求给出响应。支持多种模型，支持多模态（文本、图片、音频、视频、文件），流式和非流式输出，可配置采样、温度、最大令牌数、工具调用等。

POST /paas/v4/chat/completions

身份验证

请求头 Authorization（string，必填），使用 Bearer 方式：Authorization: Bearer <API_KEY>。

请求体

Content-Type: application/json

参数	类型	必填	说明
model	string	是	模型 ID，如 glm-5、glm-5-turbo，以控制台可用为准
messages	array	是	对话消息列表，按时间顺序，支持 system / user / assistant / tool 角色
temperature	number	否	采样温度，控制随机性
max_tokens	integer	否	最大生成 token 数
stream	boolean	否	是否流式返回，默认 false

messages 中每项包含 role（system | user | assistant | tool）与 content（文本或多模态内容）。通用对话模型主要支持纯文本及工具调用；不能仅包含 system 或 assistant 消息。

对话补全 (异步)

和指定模型对话，通过查询异步结果获取模型响应。支持多种模型，支持多模态（文本、图片、音频、视频、文件），可配置采样、温度、最大令牌数、工具调用等。此为异步接口，提交后需通过「查询异步结果」接口获取生成结果。

POST /paas/v4/async/chat/completions

身份验证

请求头 Authorization（string，必填），使用 Bearer 方式：Authorization: Bearer <API_KEY>。

请求体

Content-Type: application/json

参数	类型	必填	说明
model	string	是	模型 ID，如 glm-5、glm-5-turbo，以控制台可用为准
messages	array	是	对话消息列表，按时间顺序，支持 system / user / assistant / tool 角色
user_id	string	否	终端用户唯一标识，长度 6～128 字符
temperature	number	否	采样温度，控制随机性
max_tokens	integer	否	最大生成 token 数

messages 中每项包含 role 与 content。通用对话模型主要支持纯文本及工具调用。

响应

提交成功返回任务信息，需再调用查询异步结果接口根据 id 或 request_id 获取生成结果。

字段	类型	说明
model	string	所使用模型名称
id	string	生成的任务 ID
request_id	string	用户或平台提交的任务编号
task_status	string	处理状态：PROCESSING（处理中）、SUCCESS（成功）、FAIL（失败）

视频生成 (异步)

通过调用视频模型能力生成视频内容。支持多种视频生成方式，包括文本转视频、图像转视频等。注意此为异步接口，通过查询异步结果获取生成视频结果。

POST /paas/v4/videos/generations

身份验证

请求头 Authorization（string，必填），使用 Bearer 方式：Authorization: Bearer <API_KEY>。

请求体

Content-Type: application/json

不同视频模型（如 CogVideoX-3、CogVideoX、Vidu 文生视频/图生视频等）参数略有差异，以下为通用常见参数。

参数	类型	必填	说明
model	string	是	要调用的模型编码，如 cogvideox-3、cogvideox 等
prompt	string	是	文本描述，用于文生视频
quality	string	否	画质档位，如 "quality"
with_audio	boolean	否	是否生成音频
size	string	否	分辨率，如 "1920x1080"
fps	integer	否	帧率，如 30

响应

业务处理成功。提交后返回任务信息，需再调用查询异步结果接口根据 id 或 request_id 获取生成结果。

字段	类型	说明
model	string	此次调用使用的模型名称
id	string	生成的任务 ID，调用请求结果接口时使用此 ID
request_id	string	用户在客户端请求期间提交的任务编号或平台生成的任务编号
task_status	string	处理状态：PROCESSING（处理中）、SUCCESS（成功）、FAIL（失败）。结果需通过查询获取

图像生成 (异步)

使用 GLM-Image 系列模型从文本提示生成高质量图像。通过对用户文字描述快速、精准的理解，让 AI 的图像表达更加精确和个性化。仅支持 GLM-Image 模型。此为异步接口，通过查询异步结果获取生成图像结果。

POST /paas/v4/async/images/generations

身份验证

请求头 Authorization（string，必填），使用 Bearer 方式：Authorization: Bearer <API_KEY>。

请求体

Content-Type: application/json

参数	类型	必填	说明
model	string	是	模型编码，可选值如 glm-image，示例："glm-image"
prompt	string	是	文本描述，用于生成图像
size	string	否	生成图像尺寸，如 "1280x1280"

响应

业务处理成功。提交后返回任务信息，需再调用查询异步结果接口根据 id 或 request_id 获取生成结果。

字段	类型	说明
model	string	此次调用使用的模型名称
id	string	生成的任务 ID，调用请求结果接口时使用此 ID
request_id	string	用户在客户端请求期间提交的任务编号或平台生成的任务编号
task_status	string	处理状态：PROCESSING（处理中）、SUCCESS（成功）、FAIL（失败）。结果需通过查询获取

查询异步结果

查询对话补全、视频生成、图像生成等异步请求的处理结果和状态。提交异步任务后，使用本接口根据任务 id 获取最终结果。

GET /paas/v4/async-result/{id}

身份验证

请求头 Authorization（string，必填），使用 Bearer 方式：Authorization: Bearer <API_KEY>。

路径参数

参数	类型	必填	说明
id	string	是	任务 ID，即提交异步接口时返回的 `id`

响应

业务处理成功。返回异步任务的结果或当前状态；若任务未完成，task_status 为 PROCESSING，可稍后再次查询。

字段	类型	说明
id	string	任务 ID
request_id	string	请求 ID
created	integer	请求创建时间，Unix 时间戳（秒）
model	string	模型名称
choices	array	模型响应列表，每项含 index、message（role、content、reasoning_content、audio、tool_calls 等）

响应中可能还包含 content_filter（内容安全相关信息）、web_search.refer（角标序号）等字段，以实际返回为准。

图像生成

使用 GLM-Image 等系列模型从文本提示生成高质量图像。通过对用户文字描述快速、精准的理解，让 AI 的图像表达更加精确和个性化。

POST /paas/v4/images/generations

身份验证

请求头 Authorization（string，必填），使用 Bearer 方式：Authorization: Bearer <API_KEY>。

请求体

Content-Type: application/json

参数	类型	必填	说明
model	string	是	模型编码，可选如 glm-image、cogview-4-250304、cogview-4、cogview-3-flash，示例："glm-image"
prompt	string	是	文本描述，用于生成图像
size	string	否	生成图像尺寸，如 "1280x1280"

响应

业务处理成功。返回生成结果，其中 data 为图片列表，每项含图片链接。

字段	类型	说明
created	integer	创建时间，Unix 时间戳（秒）
data	array	生成图片列表
data[].url	string	图片链接。图片的临时链接有效期为 30 天，请及时转存
content_filter	object[]	内容安全相关信息。含 role（assistant/user/history）、level（0～3，0 最严重，3 最轻）

语音转文本

使用 GLM-ASR-2512 模型将音频文件转录为文本，支持多语言和实时流式转录。

POST /paas/v4/audio/transcriptions

身份验证

请求头 Authorization（string，必填），使用 Bearer 方式：Authorization: Bearer <API_KEY>。

请求体

Content-Type: multipart/form-data

参数	类型	必填	说明
file	file	是	需要转录的音频文件。支持格式：.wav / .mp3；规格限制：文件大小 ≤ 25 MB、音频时长 ≤ 30 秒
model	string	是	要调用的模型编码，默认 glm-asr-2512
stream	boolean	否	是否流式返回，如 false 则一次性返回完整转录结果

响应

业务处理成功。返回转录结果，其中 text 为音频转录的完整内容。

字段	类型	说明
id	string	请求 ID
created	integer	请求创建时间，以秒为单位的 Unix 时间戳
request_id	string	由用户端传递需唯一，或由平台默认生成
model	string	模型名称
text	string	音频转录的完整内容

文本转语音

使用 GLM-TTS 将文本转换为自然语音，支持多种声音、情感控制和语调调整。

POST /paas/v4/audio/speech

身份验证

请求头 Authorization（string，必填），使用 Bearer 方式：Authorization: Bearer <API_KEY>。

请求体

Content-Type: application/json

参数	类型	必填	说明
model	string	是	要使用的 TTS 模型，默认 glm-tts
input	string	是	待转换为语音的文本
voice	string	否	音色标识，如 tongtong
response_format	string	否	音频输出格式：wav、pcm，默认 pcm。流式生成时仅支持 pcm
volume	number	否	音量，默认 1.0，取值范围 (0, 10]
encode_format	string	否	仅流式返回时有效，返回编码格式：base64、hex，默认对应音频格式的 base64 字符串

响应

业务处理成功。响应类型为文件（如 audio/wav），返回生成的音频内容。采样率建议设置为 24000。

音色复刻

使用音色复刻技术，基于示例音频生成指定音色、文本内容的语音合成。

POST /paas/v4/voice/clone

身份验证

请求头 Authorization（string，必填），使用 Bearer 方式：Authorization: Bearer <API_KEY>。

请求体

Content-Type: application/json

参数	类型	必填	说明
model	string	是	模型，默认 glm-tts-clone，可选值如 glm-tts-clone
voice_name	string	是	自定义音色名称，用于标识复刻后的音色
file_id	string	是	示例音频文件 ID，需先上传音频并获取 file_id
text	string	是	示例音频对应的文本内容，或待合成语音的文本，用于音色复刻参考
request_id	string	否	请求 ID，用于区分每次请求，不传则由平台生成

响应

业务处理成功。返回复刻生成的音色信息及试听文件。

字段	类型	说明
voice	string	音色 ID
file_id	string	音频试听文件 ID
file_purpose	string	文件用途，固定为 voice-clone-output
request_id	string	请求 ID

音色列表

获取音色列表，支持按音色名称模糊搜索、按音色类型过滤。

GET /paas/v4/voice/list

身份验证

请求头 Authorization（string，必填），使用 Bearer 方式：Authorization: Bearer <API_KEY>。

查询参数

参数	类型	必填	说明
voiceName	string	否	音色名称，支持模糊搜索；传入中文需进行 URL 编码
voiceType	string	否	音色类型：OFFICIAL（官方音色）、PRIVATE（自定义音色）

响应

业务处理成功。返回 voice_list 数组，每项包含以下字段。

字段	类型	说明
voice	string	音色 ID
voice_name	string	音色名称
voice_type	string	音色类型：OFFICIAL 为官方音色，PRIVATE 为自定义音色
download_url	string	试听音频的下载链接
create_time	string	创建时间

删除音色

删除指定的音色。

POST /paas/v4/voice/delete

身份验证

请求头 Authorization（string，必填），使用 Bearer 方式：Authorization: Bearer <API_KEY>。

请求体

Content-Type: application/json

参数	类型	必填	说明
voice	string	是	要删除的音色 ID，如通过音色列表或音色复刻接口获取的 voice 值
request_id	string	否	请求 ID，用于区分每次请求

响应

业务处理成功。返回被删除的音色及删除时间。

字段	类型	说明
voice	string	已删除的音色 ID
update_time	string	删除时间

文本嵌入

使用 GLM Embedding 系列模型将文本转换为高维向量表示，用于语义相似性和搜索。

POST /paas/v4/embeddings

身份验证

请求头 Authorization（string，必填），使用 Bearer 方式：Authorization: Bearer <API_KEY>。

请求体

Content-Type: application/json

参数	类型	必填	说明
model	string	是	嵌入模型名称，如 embedding-3、embedding-2
input	string / array	是	待嵌入的文本或文本数组
dimensions	integer	否	输出向量维度，部分模型支持指定

响应

业务处理成功。返回 data 数组，每项包含 embedding 向量；usage 为本次调用的 token 统计。

字段	类型	说明
model	string	使用的嵌入模型名称
object	string	固定为 "list"
data	array	嵌入结果列表
data[].index	integer	对应 input 的索引
data[].object	string	固定为 "embedding"
data[].embedding	number[]	向量化表征数组
usage	object	本次模型调用的 token 数量统计
usage.prompt_tokens	integer	用户输入的 token 数量
usage.total_tokens	integer	总 token 数量

文本重排序

Rerank 用于文本重排序，通过接收用户的查询文本及候选文本列表，使用模型计算候选文本与查询文本的相关性得分并返回分数。适用于智能问答、信息检索等场景。

POST /paas/v4/rerank

身份验证

请求头 Authorization（string，必填），使用 Bearer 方式：Authorization: Bearer <API_KEY>。

请求体

Content-Type: application/json

参数	类型	必填	说明
model	string	是	要调用的模型编码，默认为 rerank
query	string	是	用户的查询文本
documents	array	是	需要打分的候选文本列表
top_n	integer	否	返回与查询最相关的前 N 条结果

响应

业务处理成功。返回按相关性排序后的结果及得分。

字段	类型	说明
id	string	请求 ID
results	array	重排序结果列表
results[].document	string	候选文本内容
results[].index	integer	在原始 documents 中的索引
results[].relevance_score	number	与查询的相关性得分
usage	object	本次调用的 token 数量统计（prompt_tokens、total_tokens）

文本分词器

Tokenizer 用于将文本切分为模型可识别的 token 并计算数量。它接收用户输入的文本，通过模型进行分词处理，最终返回对应的 token 数量。适用于文本长度评估、模型输入预估、对话上下文截断、费用计算等。

POST /paas/v4/tokenizer

身份验证

请求头 Authorization（string，必填），使用 Bearer 方式：Authorization: Bearer <API_KEY>。

请求体

Content-Type: application/json

参数	类型	必填	说明
model	string	是	调用的模型代码，如 glm-4.6、glm-4.6v、glm-4.5、glm-4.5-air、glm-4-long、glm-4-air、glm-4-flash 等
messages	array	是	消息列表，每项含 role（user/system/assistant）与 content（支持文本、图片、视频、文件等多模态）

响应

业务处理成功。返回分词统计结果。

字段	类型	说明
id	string	请求 ID
usage	object	token 数量统计
usage.prompt_tokens	integer	输入 prompt 的 token 数
usage.video_tokens	integer	视频 token 数（如有）
usage.image_tokens	integer	图片 token 数（如有）
usage.total_tokens	integer	总 token 数
created	integer	创建时间，Unix 时间戳
request_id	string	用户或平台提交的任务编号

文档解析

使用 GLM-OCR 模型解析文档和图片的布局并提取文本内容。支持图片和 PDF 文档的 OCR 识别，返回详细的布局信息和可视化结果。

POST /paas/v4/layout_parsing

身份验证

请求头 Authorization（string，必填），使用 Bearer 方式：Authorization: Bearer <API_KEY>。

请求体

Content-Type: application/json

参数	类型	必填	说明
model	string	是	模型编码，如 glm-ocr
file	string	是	待解析的文档或图片 URL

响应

业务处理成功。返回解析后的文本（Markdown）及布局详情。

字段	类型	说明
id	string	任务 ID
created	integer	创建时间，Unix 时间戳
model	string	使用的模型名称
md_results	string	解析结果，Markdown 格式文本
layout_details	array	布局详情，每项含 index、label、bbox_2d 等
request_id	string	请求 ID

网络搜索

Web Search API 是一个专给大模型用的搜索引擎，在传统搜索引擎网页读取、排序的能力基础上，增强了意图识别能力，返回更适合大模型处理的结果（网页标题、URL、摘要、名称、图标等）。支持意图增强检索、结构化输出和多引擎支持。见网络搜索服务。

POST /paas/v4/web_search

身份验证

请求头 Authorization（string，必填），使用 Bearer 方式：Authorization: Bearer <API_KEY>。

请求体

Content-Type: application/json

参数	类型	必填	说明
search_query	string	是	需要进行搜索的内容，建议搜索 query 不超过 70 个字符
search_engine	string	否	搜索引擎，默认 search_std
search_intent	boolean	否	是否启用意图增强，默认 false
count	integer	否	返回结果数量，默认 10
search_domain_filter	string	否	按域名过滤搜索结果
search_recency_filter	string	否	按时间过滤，默认 noLimit
content_size	string	否	结果内容篇幅，默认 medium

响应

业务处理成功。返回搜索意图与结果列表。

字段	类型	说明
id	string	任务 ID
created	integer	创建时间，Unix 时间戳
request_id	string	请求 ID
search_intent	array	意图识别结果，每项含 query、intent（SEARCH_ALL/SEARCH_NONE/SEARCH_ALWAYS）、keywords
search_result	array	搜索结果，每项含 title、content、link、media、icon、refer、publish_date

网页阅读

读取并解析指定 URL 的网页内容，可选择返回格式、支持控制缓存、图片保留与摘要选项等。

POST /paas/v4/reader

身份验证

请求头 Authorization（string，必填），使用 Bearer 方式：Authorization: Bearer <API_KEY>。

请求体

Content-Type: application/json

参数	类型	必填	说明
url	string	是	需要抓取的 URL
timeout	integer	否	请求超时时间（秒），默认 20

响应

业务处理成功。返回解析后的网页内容与元数据。

字段	类型	说明
id	string	任务 ID
created	integer	创建时间，Unix 时间戳
request_id	string	请求 ID
model	string	模型名称
reader_result	object	阅读结果，含 content、description、title、url、external（stylesheet）、metadata
reader_result.metadata	object	页面元数据：keywords（页面关键词）、viewport（视口设置）、description（元数据描述）、format-detection（格式检测，如 telephone=no）
metadata	object	顶层元数据，含 keywords、viewport、description

内容安全

可对文本、图片、音频、视频格式类型的内容进行检测，精准识别涉黄、涉暴、违法违规等风险内容，并输出结构化审核结果（包括内容类型、风险类型及具体风险内容片段），快速定位和处理违规信息。

POST /paas/v4/moderations

身份验证

请求头 Authorization（string，必填），使用 Bearer 方式：Authorization: Bearer <API_KEY>。

请求体

Content-Type: application/json

参数	类型	必填	说明
model	string	是	安全模型，可选 moderation，默认 moderation
input	string	是	待审核内容（文本、图片 URL 等）

响应

业务处理成功。返回审核结果列表与用量统计。

字段	类型	说明
id	string	任务 ID
created	integer	创建时间，Unix 时间戳
request_id	string	请求 ID
result_list	array	审核结果列表，每项含 content_type（内容类型）、risk_level（PASS/REVIEW/REJECT）、risk_type（风险类型列表）
usage	object	用量统计，如 usage.moderation_text.call_count

文件解析(同步)

创建文件解析任务，支持多种文件格式和解析工具。见文件解析服务。

POST /paas/v4/files/parser/sync

身份验证

请求头 Authorization（string，必填），使用 Bearer 方式：Authorization: Bearer <API_KEY>。

请求体

Content-Type: multipart/form-data

参数	类型	必填	说明
file	file	是	待解析文件
tool_type	string	是	使用的解析工具类型，如 prime-sync
file_type	string	否	文件类型，如 WPS

响应

业务处理成功。返回解析状态与结果内容或下载链接。

字段	类型	说明
status	string	任务状态，如 succeeded
message	string	结果状态描述
task_id	string	文件解析任务 ID
content	string \| null	当 format_type=text 时返回的解析文本内容
parsing_result_url	string \| null	当 format_type=download_link 时返回的结果下载链接

文件解析

创建文件解析任务，支持多种文件格式和解析工具。见文件解析服务。

POST /paas/v4/files/parser/create

身份验证

请求头 Authorization（string，必填），使用 Bearer 方式：Authorization: Bearer <API_KEY>。

请求体

Content-Type: multipart/form-data

参数	类型	必填	说明
file	file	是	待解析文件
tool_type	string	是	使用的解析工具类型：lite、expert、prime
file_type	string	否	文件类型。Lite 支持：pdf, docx, doc, xls, xlsx, ppt, pptx, png, jpg, jpeg, csv, txt, md。Expert/Prime 支持：上述格式及 html, bmp, gif, webp, heic, eps, icns, im, pcx, ppm, tiff, xbm, heif, jp2 等

响应

任务创建成功。返回任务 ID，可通过「解析结果」接口查询异步解析结果。

字段	类型	说明
success	boolean	是否成功
message	string	结果状态描述，如「任务创建成功」
task_id	string	文件解析任务 ID，用于后续查询解析结果

解析结果

异步获取文件解析任务的结果，支持返回纯文本或下载链接格式。见文件解析服务。

GET /paas/v4/files/parser/result/{taskId}/{format_type}

身份验证

请求头 Authorization（string，必填），使用 Bearer 方式：Authorization: Bearer <API_KEY>。

路径参数

参数	类型	必填	说明
taskId	string	是	文件解析任务 ID，由「文件解析」接口返回
format_type	string	是	结果返回格式类型，如 text（纯文本）或 download_link（下载链接）

响应

结果获取成功。根据 format_type 返回解析文本或下载链接。

字段	类型	说明
status	string	任务状态，如 succeeded
message	string	结果状态描述，如「结果获取成功」
task_id	string	文件解析任务 ID
content	string \| null	当 format_type=text 时返回的解析文本内容
parsing_result_url	string \| null	当 format_type=download_link 时返回的结果下载链接

OCR 服务

上传图片文件，使用指定工具类型进行 OCR（光学字符识别），支持手写体、文字等识别模式。见 OCR 服务。

POST /paas/v4/files/ocr

身份验证

请求头 Authorization（string，必填），使用 Bearer 方式：Authorization: Bearer <API_KEY>。

请求体

Content-Type: multipart/form-data

参数	类型	必填	说明
file	file	是	待识别的图片文件（如 JPG、PNG）
tool_type	string	是	OCR 识别工具类型，如 hand_write（手写体识别）
language_type	string	否	语言类型，如 CHN_ENG（中英混合）
probability	boolean	否	是否返回置信度信息

响应

识别成功。返回任务 ID、识别结果列表及可选置信度。

字段	类型	说明
task_id	string	OCR 任务 ID
message	string	状态描述，如「成功」
status	string	任务状态，如 succeeded
words_result_num	integer	识别出的文本块数量
words_result	array	识别结果列表，每项含 location（left、top、width、height）、words（识别文本）、probability（average、variance、min 置信度）

智能体对话

与智能体进行对话交互。支持同步和流式调用，提供智能体的专业能力。见智能体文档。

POST /v1/agents

身份验证

请求头 Authorization（string，必填），使用 Bearer 方式：Authorization: Bearer <API_KEY>。

请求体

Content-Type: application/json

参数	类型	必填	说明
agent_id	string	是	智能体 ID，如 general_translation、slides_glm_agent、cartoon_generator_agent、ai_drawing_agent、receipt_recognition_agent、clothes_recognition_agent、contract_parser_agent、service_check_agent、subtitle_translation_agent、intelligent_education_correction_agent、job_matching_agent、social_translation_agent 等
messages	array	是	对话消息列表，每项含 role（user/assistant）、content
custom_variables	object	否	智能体扩展参数，如通用翻译的 source_lang、target_lang、glossary

响应

智能体生成的响应内容（纯文本格式）。

字段	类型	说明
id	string	请求 ID
agent_id	string	智能体 ID
conversation_id	string	会话 ID
async_id	string	异步任务 ID（如有）
choices	array	候选回复，每项含 index、messages（role、content）、finish_reason（stop/length/sensitive/network_error）
usage	object	Token 使用统计：prompt_tokens、completion_tokens、total_tokens

异步结果

查询智能体异步任务的处理结果和状态。在发起智能体对话并收到 async_id 后，可使用本接口轮询获取异步任务完成后的结果。

POST /v1/agents/async-result

身份验证

请求头 Authorization（string，必填），使用 Bearer 方式：Authorization: Bearer <API_KEY>。

请求体

Content-Type: application/json

参数	类型	必填	说明
async_id	string	是	异步任务 ID，由智能体对话接口在异步模式下返回
agent_id	string	否	智能体 ID，与发起对话时使用的 agent_id 一致，便于服务端路由与校验

响应

业务处理成功时返回异步任务结果。若任务尚未完成，status 可能为处理中状态，可稍后再次请求本接口轮询。

字段	类型	说明
agent_id	string	智能体 ID
async_id	string	异步任务 ID
status	string	任务状态，如 `success` 表示成功，其他值表示处理中或失败
choices	array	候选回复列表，每项含 messages（role、content 等）、可选 tag_cn/tag_en 等扩展字段
usage	object	Token 使用统计，含 `total_tokens`（消耗总 tokens 数）等

对话历史

查询智能体对话历史。现仅支持 slides_glm_agent 智能体。传入会话 ID 可获取该会话下的历史消息列表。

POST /v1/agents/conversation

身份验证

请求头 Authorization（string，必填），使用 Bearer 方式：Authorization: Bearer <API_KEY>。

请求体

Content-Type: application/json

参数	类型	必填	说明
agent_id	string	是	智能体 ID，当前仅支持 `slides_glm_agent`
conversation_id	string	是	会话 ID，由智能体对话接口返回的 `conversation_id`
custom_variables	object	否	扩展参数，按需传入

响应

成功时返回该会话的历史消息列表，按 choices 中的 message 顺序展示对话内容。

字段	类型	说明
conversation_id	string	会话 ID
agent_id	string	智能体 ID
choices	array	候选列表，每项含 `message` 数组
choices[].message	array	消息列表，每项含 `role`（如 user、agent）、`content`
choices[].message[].role	string	角色，如 user、agent
choices[].message[].content	array	内容块列表。可为文本或富媒体：`type` 为 `file_url` 时用 `file_url` 表示文件下载链接，为 `image_url` 时用 `image_url` 表示图片下载链接；可选 `tag_cn`、`tag_en`

场景示例

典型业务场景与代码示例

对话场景

调用聊天接口实现多轮对话、系统角色与流式输出，详见 API 文档中的 chat/completions 说明。

嵌入与 RAG

使用嵌入接口获取文本向量，结合知识库实现检索增强生成（RAG）等能力。

编码套餐

套餐类型与计费说明

套餐说明

平台提供按量计费与多种套餐包，具体价格与额度请以控制台「价格」或「财务」页面为准。

更新日志

版本与功能更新记录

版本记录

请关注控制台或站内公告获取最新版本与功能更新信息。

条款与协议

服务条款与隐私政策

服务条款

使用平台服务即表示您同意遵守相关服务条款，请在使用前仔细阅读。

隐私政策

我们重视用户隐私，具体政策以最新公示为准。

常见问题

FAQ

通用问题

如何获取 API Key？ 登录后进入控制台 → API Key 管理，创建并妥善保管 Key。
模型列表为空？ 请在模型管理中添加要使用的模型，并确保已配置对应服务商。
如何联系支持？ 可通过帮助中心或企微助手获取支持。

平台介绍

平台定位

平台优势

模型矩阵

开发套件

深耕场景

服务保障

查看模型

极速体验

快速开始

开发指南

HTTP API 调用

官方 Python SDK

官方 Java SDK

OpenAI SDK 兼容

LangChain 集成

核心概念

模型概览

推荐模型

GLM-5

GLM-4.6V

GLM-Image

模型一览

文本模型

视觉模型

图像生成模型

视频生成模型

音视频模型

向量模型

其他模型

即将弃用模型

快速开始

开始使用

1 注册账号

2 获取 API Key

3 环境准备

4 发起第一次调用

探索更多功能

流式输出

多模态输入

常见问题

核心参数

快速参考

参数详解

do_sample

temperature

top_p

max_tokens

stream

thinking

相关概念

HTTP API 调用

核心优势

跨平台兼容

标准协议

灵活集成

实时调用

获取 API Key

API 基础信息

请求端点(通用API)

请求头要求

支持的鉴权方式

基础调用示例

简单对话

流式响应

多轮对话

常用编程语言示例

错误处理

常见错误码

实践建议

更多资源

API 文档

技术支持

官方 Python SDK

核心优势

简单易用

功能完整

高性能

类型安全

支持的功能