平台介绍
BigHub · 一站式大模型开发平台
查看模型
平台已上架数十个模型,覆盖文本生成、语言推理、图像理解、视频生成、音视频处理等多场景。前往模型概览页面,即可查看所有模型的功能定位、模型价格、上下文长度等基本信息。
极速体验
您可前往 BigHub 体验中心,极速体验模型能力。
在对话框输入相关参数及 prompt,点击发送,即可看到对应模型所输出的结果。
点击页面左侧的按钮,可自由切换体验文本模态、多模态模型及多种智能体。
快速开始
快速开始将引导您逐步完成 API 调用流程,涵盖注册账号、环境配置、获取 API Key、SDK 使用等关键步骤。帮助您分钟级完成模型调用服务,并集成到您的业务或应用中。
开发指南
平台提供多种开发方式,满足不同开发者的需求和技术栈偏好。无论您是初学者还是经验丰富的开发者,都能找到适合的集成方案。
HTTP API 调用
标准 RESTful API 接口,支持所有编程语言和平台
官方 Python SDK
功能完整的 Python 开发工具包,支持异步调用和类型安全
官方 Java SDK
企业级 Java 开发工具包,支持高并发和高可用性
OpenAI SDK 兼容
兼容 OpenAI SDK,零学习成本快速迁移现有应用
LangChain 集成
集成 LangChain 框架,构建复杂的 AI 应用和智能代理
核心概念
GLM
Token
上下文窗口
GLM (General Language Model)是一款基于自回归填空的预训练语言模型。ChatGLM 系列模型支持相对复杂的自然语言指令,并且能够解决困难的推理类问题。该模型配备了易于使用的 API 接口,允许开发者轻松将其融入各类应用,广泛应用于智能客服、虚拟主播、聊天机器人等诸多领域。
查看模型的上下文限制,或使用 Tokenizer 工具估算上下文长度。
重要提醒
以上内容主要适用于 GLM-4 系列语言模型。对于多模态模型,输入内容有严格长度限制,若超出限制,系统将提示「prompt 超长」。
Token 是模型处理文本的基本单位。中文与英文的 token 折算比例不同,请求与回复的 token 数量将影响计费。建议在开发时注意上下文长度与 token 估算。
上下文窗口 指模型单次请求可接受的最大 token 数量。不同模型的上下文长度不同,请在模型概览页面查看具体限制,并在构造请求时勿超出该限制。
模型概览
开始使用 · 查看平台已上架模型
文本模型
文本模型是一类专注于处理和生成自然语言的模型,涵盖了语言理解与推理能力,能够自动处理海量文本数据并进行逻辑推导。智谱的文本模型结合了强大的语言模型和推理模型,使得系统不仅能理解和生成文本内容,还能进行高层次的推理和判断。
模型 定位 特点 上下文 最大输出
GLM-4.5-Flash即将下线 免费模型 128K 96K
GLM-4-Flash-250414 免费模型 128K 16K
视觉模型
视觉模型是一类用于处理图像或视频信息的模型,用于识别、分析与决策。视觉理解模型侧重理解内容、识别物体与场景关系;视觉推理模型则结合图像与语言进行逻辑判断、因果分析与多步推理,适用于图文问答、图像描述、多模态对齐等场景。
模型 定位 特点 上下文 最大输出
GLM-4.6V 旗舰视觉推理 128K 32K
GLM-OCR 轻量图文解析 性能 SOTA,高精度高效率 支持多种常见复杂文档解析 单图≤10 MB,PDF≤50 MB —
AutoGLM-Phone 手机智能助理框架 支持用自然语言自动完成 App 操作任务 支持完整操作指令 20K 2048
图像生成模型
图像生成模型是一类通过学习海量图像数据,实现从文本生成高质量图片的模型,广泛应用于视觉内容创作、游戏美术、产品设计、医学影像合成等领域。
模型 定位 特点 多分辨率
GLM-Image 旗舰图像生成 复杂指令遵循与知识密集场景更强 文字渲染开源 SOTA,汉字尤其出色 支持
CogView-4 图像生成 支持
CogView-3-Flash 免费模型 支持
视频生成模型
视频生成模型是一类通过学习时序视觉数据,从文本、图像或其他视频素材生成动态视频内容的模型,广泛应用于影视制作、虚拟人、动画生成、数字营销等领域。
模型 定位 特点 多模态支持 多分辨率
CogVideoX-3 高智能旗舰 主观清晰度大幅提升 更好的指令遵循、物理真实模拟 现实、3D 风格场景表现提升 新增首尾帧生成功能 图像、文本、首尾帧 支持
音视频模型
音视频模型涵盖语音识别、语音合成、音视频理解与生成等能力,可用于实时转写、多语种翻译、虚拟主播、有声内容制作等场景。
向量模型
向量模型将文本映射为高维向量,用于语义检索、相似度计算与 RAG 等应用。平台提供多种向量模型,支持不同维度与语言。
其他模型
模型 类型 说明 上下文 并发
CodeGeeX-4 代码模型 适用于代码自动补全任务 128K 32k
Rerank 重排序模型 计算文本之间的 score 值,对召回结果进行重排序 4K —
即将弃用模型
我们已经宣布了以下模型的弃用日期。在这些模型弃用后,我们会将它们自动路由至新的模型。请用户注意在弃用日期之前,将您的模型编码更新为最新版本,以确保服务的顺畅过渡。
模型 弃用时间 指向模型
GLM-Z1 系列 2025年11月15日 —
GLM-4-0520 2025年12月30日 —
快速开始
开始使用 · 从注册到第一次 API 调用
本指南将帮助您快速上手 BigHub 开放平台,从注册账号到发起第一次 API 调用,只需几分钟即可完成。
开始使用
1 注册账号
访问 BigHub 开放平台,点击右上角的「注册/登录」按钮,按照提示完成账号注册流程。完成登录/注册后,即可开启开发之旅。
2 获取 API Key
登录后,在个人中心页面,点击 API Key,创建一个新的 API Key。请妥善保管 Key,创建后仅展示一次。
3 环境准备
根据您的开发语言安装对应 SDK 或配置 HTTP 请求环境。平台支持 Python、Java 等官方 SDK,也兼容 OpenAI SDK 及 LangChain 等生态。
4 发起第一次调用
在请求头中携带 Authorization: Bearer <API_KEY>,调用聊天补全接口即可完成第一次 API 调用。也可先在体验中心进行对话测试。
探索更多功能
流式输出
启用流式输出,获得更自然的对话体验。
{
"model": "glm-5",
"messages": [
{ "role": "user", "content": "你好,请介绍一下自己。" }
],
"stream": true
}
多模态输入
使用 GLM-4.6V 等模型处理图像和文本的混合输入。
{
"model": "glm-4.6v",
"messages": [
{
"role": "user",
"content": [
{ "type": "text", "text": "请描述这张图片。" },
{ "type": "image_url", "image_url": { "url": "https://..." } }
]
}
]
}
常见问题
如何处理 API 调用错误?
请根据返回的错误码与错误信息排查。常见原因包括 API Key 无效、模型名错误、参数超限等。可查阅 API 文档中的错误码说明。
如何优化 API 调用成本?
可选用更适合场景的模型规格、合理设置 max_tokens、利用缓存与批处理等方式控制 token 消耗。详见价格页面与计费说明。
如何处理长文本输入?
不同模型有上下文长度限制,请勿超出该限制。可对长文本进行分段、摘要或使用支持更长上下文的模型。
如果您在使用过程中遇到任何问题,可以查阅完整文档或联系我们的技术支持。
核心参数
开始使用 · 接口调用参数说明
在与模型进行交互时,你可以通过调整不同的参数来控制模型的输出,以满足不同场景下的需求。理解这些核心参数将帮助你更好地利用模型的能力。
快速参考
参数 类型 默认值 描述
do_sample 布尔值 true 是否对输出进行采样,以增加多样性。
temperature 浮点数 依赖模型 控制输出的随机性,值越高越随机。
top_p 浮点数 依赖模型 通过核采样控制多样性,建议与 temperature 二选一。
max_tokens 整数 依赖模型 限制单次调用生成的最大 token 数。
stream 布尔值 false 是否以流式方式返回响应。
thinking 对象 {"type": "enabled"} 是否开启思维链深度思考,仅 GLM-4.5 及以上支持。
参数详解
do_sample
do_sample 是一个布尔值(true 或 false),用于决定是否对模型的输出进行采样。
true(默认值):根据每个 token 的概率分布进行随机采样,增加文本的多样性和创造性。适用于内容创作、对话等场景。
false:采用贪心策略,总是选择概率最高的下一个 token。输出确定性高,适用于需要精确、事实性回答的场景。
最佳实践:
需要可复现、确定性的输出时,设为 false。 希望模型生成更多样、更有趣的内容时,设为 true,并配合 temperature 或 top_p 使用。
temperature
temperature(温度)参数控制着模型输出的随机性。
较低的值(如 0.2):概率分布更「尖锐」,输出更具确定性、更保守。 较高的值(如 0.8):概率分布更「平缓」,输出更具随机性和多样性。
最佳实践:
在需要严谨、事实准确的场景(如知识问答),建议使用较低的 temperature。 在需要创意的场景(如内容创作),可以尝试较高的 temperature。 建议 temperature 和 top_p 只使用其中一个。
top_p
top_p(核采样)通过从累积概率超过阈值的最小 token 集合中进行采样来控制多样性。
较低的值(如 0.2):限制采样范围,输出更具确定性。 较高的值(如 0.9):扩大采样范围,输出更具多样性。
最佳实践:
如果希望在保证内容质量的同时获得一定的多样性,top_p 是一个很好的选择(推荐值 0.8~0.95)。 通常不建议同时修改 temperature 和 top_p。
max_tokens
max_tokens 用于限制模型单次调用生成的最大 token 数量。GLM-4.6 最大支持 128K 输出长度,GLM-4.5 最大支持 96K 输出长度,建议设置不小于 1024。Token 是文本的基本单位,通常 1 个 token 约等于 0.75 个英文单词或 1.5 个中文字符。设置合适的 max_tokens 可以控制响应长度和成本,避免过长的输出。如果模型在达到 max_tokens 限制前完成回答,会自然结束;如果达到限制,输出可能被截断。
作用: 防止生成过长文本,控制 API 调用成本。注意: max_tokens 限制的是生成内容的长度,不包括输入。
最佳实践:
根据应用场景合理设置 max_tokens。如果需要简短回答,可设为较小的值(如 50)。
stream
stream 为布尔值,决定是否以流式方式返回响应。设为 true 时可获得更自然的对话体验,适用于实时对话场景。
thinking
用于控制是否开启思维链深度思考。开启后会强制思考。
disabled:关闭思维链。
最佳实践:
在需要模型进行复杂推理、规划时,建议开启。 对于简单任务,可关闭以获得更快响应。
HTTP API 调用
开发指南
!
注意:使用 GLM 编码套餐时,需要配置专属的 Coding 端点 https://open.bighub.cn/api/coding/paas/v4 而非通用端点 https://open.bighub.cn/api/paas/v4/。
注意:Coding API 端点仅限 Coding 场景,并不适用通用 API 场景,请区分使用。
平台提供基于 RESTful 架构的应用接口,通过标准 HTTP 协议与模型服务交互。无论使用何种编程语言或框架,均可通过 HTTP 请求调用各类大模型能力。
核心优势
跨平台兼容
支持所有支持 HTTP 协议的编程语言和平台
标准协议
基于 RESTful 设计,遵循 HTTP 标准,易于理解和使用
获取 API Key
访问 BigHub 开放平台
注册并登录您的账户
在 API Key 管理页面创建 API Key
复制您的 API Key 以供使用
ⓘ
建议将 API Key 设置为环境变量替代硬编码到代码中,以提高安全性。
API 基础信息
请求端点(通用API)
https://open.bighub.cn/api/paas/v4/
支持的鉴权方式
最简单的鉴权方式,直接使用您的 API Key:
curl --location 'https://open.bighub.cn/api/paas/v4/chat/completions' \
--header 'Authorization: Bearer YOUR_API_KEY' \
--header 'Content-Type: application/json'
基础调用示例
简单对话
向 /chat/completions 发送 messages 即可完成单轮对话。
流式响应
请求体中设置 stream: true,接口将采用 SSE 流式返回内容。
多轮对话
在 messages 数组中依次追加 user / assistant 消息,即可实现多轮对话上下文。
常用编程语言示例
可在 API 文档各接口页的「Try it」或示例代码中查看 curl、Python、Java 等语言的调用示例。
错误处理
常见错误码
请参考 API 文档中的「错误码」章节,根据返回的 code 与 message 进行重试或降级处理。
实践建议
定期轮换 API Key
实施指数退避重试机制
记录详细的错误日志
设置合理的超时和重试次数
监控 API 调用频率和成功率,跟踪响应时间和错误率,设置告警机制
更多资源
📄
API 文档
查看完整的 API 接口文档和参数说明
i
建议在生产环境中使用 HTTPS 协议,并实施适当的安全措施来保护您的 API 密钥和数据传输。
官方 Python SDK
开发指南
智谱 AI 官方 Python SDK 是一个功能强大、易于使用的 Python 开发工具包,专为与智谱 AI 的各种人工智能模型进行交互而设计,为 Python 开发者提供便捷、高效的 AI 模型集成方案。
ⓘ
最新 Python SDK 版本为 0.2.0,请及时更新以获取最新功能和修复。
核心优势
简单易用
Pythonic 的 API 设计,完善的文档和示例,让你快速上手
功能完整
支持智谱 AI 全系列模型,包括语言、视觉、图像生成等
类型安全
完整的类型提示,IDE 友好,减少开发错误
支持的功能
对话聊天: 支持单轮和多轮对话,流式和非流式响应
函数调用: 让 AI 模型调用您的自定义函数
视觉理解: 图像分析、视觉问答
图像生成: 文本生成图像、编辑等
文本嵌入: 获取文本向量,用于 RAG、检索等场景
技术规格
SDK 支持 Python 3.8+,提供同步与异步接口,兼容智谱开放平台全部模型能力。
环境要求
Python 3.8 及以上版本,建议使用 3.10+ 以获得更好的类型提示体验。
快速开始
安装 SDK
使用 pip 安装:
pip install zhipuai
安装完成后可通过 import zhipuai 验证。
获取 API Key
在开放平台控制台创建 API Key,并建议通过环境变量 ZHIPUAI_API_KEY 配置。
创建客户端
from zhipuai import ZhipuAI
client = ZhipuAI(api_key="your-api-key")
基础对话
调用 client.chat.completions.create 传入 model 与 messages 即可完成单轮对话。
流式对话
设置 stream=True,接口返回流式迭代器,可逐块处理回复内容。
多轮对话
在 messages 中依次追加 role: user 与 role: assistant 消息,即可保持对话上下文。
完整示例
可在官方仓库或文档中查看从安装到调用的完整示例代码。
错误处理
SDK 会抛出标准异常,建议使用 try/except 捕获并根据错误码进行重试或提示。
高级配置
可配置超时、代理、自定义 HTTP 客户端等,详见 SDK 文档。
高级功能
推理 (thinking)
支持深度思考等模型的推理过程输出。
函数调用 (Function Calling)
定义工具函数并传入 tools,由模型决定是否调用。
多模态处理
支持图像理解、图像生成、视频生成、文本嵌入等能力,接口与文档中均有对应说明。
流式处理
使用流式接口时,可配合回调或迭代器逐块处理内容,适用于长文本生成与实时展示。
更多资源
完整 API 说明、更新日志与示例请参考官方 Python SDK 文档与 GitHub 仓库。
官方 Java SDK
开发指南
智谱 AI 官方 Java SDK 是智谱 AI 官方提供的 Java 开发工具包,专为与智谱 AI 的各种人工智能模型进行交互而设计,为 Java 开发者提供便捷、高效的 AI 模型集成方案。
ⓘ
最新 Java SDK 版本为 0.3.0,请及时更新以获取最新功能和修复。
核心优势
易于集成
简洁的 API 设计,完善的文档,快速集成到现有项目
支持的功能
对话聊天: 支持单轮和多轮对话,流式和非流式响应
函数调用: 让 AI 模型调用您的自定义函数
视觉理解: 图像分析、视觉问答
图像生成: 根据文本描述生成高质量图像
视频生成: 根据文本生成创意视频内容
语音处理: 语音转文字、文字转语音
文本嵌入: 文本向量化,支持语义检索
智能助手: 构建专业级 AI 助手应用
技术规格
环境要求
Java 版本: Java 1.8 或更高版本
构建工具: Maven 3.6+ 或 Gradle 6.0+
网络: 支持 HTTPS 连接
依赖管理
通过 Maven 或 Gradle 引入官方依赖,详见快速开始中的添加依赖。
快速开始
添加依赖
Maven 项目在 pom.xml 中添加智谱 AI Java SDK 依赖;Gradle 项目在 build.gradle 中声明依赖。
获取 API Key
在开放平台控制台创建 API Key,建议通过环境变量或配置注入,避免硬编码。
创建客户端
ZhipuAiClient client = new ZhipuAiClient.Builder()
.apiKey(System.getenv("ZHIPUAI_API_KEY"))
.build();
基础对话
调用 client.chatCompletions().create() 传入模型与消息列表即可完成单轮对话。
流式对话
使用流式 API 可逐块接收回复,适用于长文本与实时展示。
完整示例
官方仓库提供从依赖到调用的完整示例项目,可克隆后直接运行。
高级功能
函数调用 (Function Calling)
定义工具函数并传入请求,由模型决定是否调用。
定义和使用函数
按照 SDK 文档中的工具定义格式注册函数,并在对话中传入 tools 参数。
多模态处理
支持图像理解、图像生成、文本嵌入等多模态能力。
图像理解
传入图片 URL 或 base64,结合文本进行视觉问答与分析。
图像生成
调用图像生成接口,传入模型(如 CogView)、提示词与尺寸,获取生成结果。
CreateImageRequest request = CreateImageRequest.builder()
.model(Constants.ModelCogView3)
.prompt("一幅美丽的山水画,中国传统风格,水墨画")
.size("1024x1024")
.build();
ImageResponse response = client.images().createImage(request);
文本嵌入
调用嵌入接口获取文本向量,用于检索、RAG 等场景。
更多资源
🐦
GitHub 仓库
查看源代码、提交问题、参与贡献
i
本 SDK 基于智谱 AI 最新的 API 规范开发,确保与平台功能保持同步更新。建议定期更新到最新版本以获得最佳体验。
Claude API 兼容
开发指南
智谱提供与 Claude API 兼容的接口,这意味着您可以使用现有的 Anthropic SDK 代码,只需要简单修改 API 密钥和基础 URL,就能无缝切换到智谱的模型服务。
ⓘ
GLM Coding Plan 编码套餐上线,支持含 Claude Code、Cline 等近 10 种全球主流编码工具,搭配智谱新旗舰 GLM-4.5,20 元起包月畅享!
核心优势
零学习成本
如果您已经熟悉 Anthropic SDK,可以立即上手使用
快速迁移
现有 Claude 应用如 Claude Code 等可以快速迁移到智谱平台
从 Claude 迁移至智谱
只需将 API 密钥替换为智谱开放平台的 API Key,并将请求的 base URL 指向智谱提供的 Claude 兼容端点即可,其余调用方式与 Anthropic 官方一致。
详细步骤
获取 API Key
访问 智谱开放平台
注册并登录您的账户
在 API Keys 管理页面创建 API Key
复制您的 API Key 以供使用
ⓘ
建议将 API Key 设置为环境变量:export ANTHROPIC_API_KEY=your-api-key 替代硬编码到代码中,以提高安全性。
代码示例
以下示例使用智谱 Claude 兼容端点 https://open.bigmodel.cn/api/anthropic/v1/messages,请求头使用 x-api-key 传递您的智谱 API Key。
cURL
Python
TypeScript
Java
curl https://open.bigmodel.cn/api/anthropic/v1/messages \
--header "x-api-key: your-zhipuai-api-key" \
--header "content-type: application/json" \
-d '{"model":"claude-3-5-sonnet-20241022","max_tokens":1024,"messages":[{"role":"user","content":"Hello"}]}'
import anthropic
client = anthropic.Anthropic(
api_key="your-zhipuai-api-key",
base_url="https://open.bigmodel.cn/api/anthropic/v1"
)
message = client.messages.create(
model="claude-3-5-sonnet-20241022",
max_tokens=1024,
messages=[{"role": "user", "content": "Hello"}]
)
import Anthropic from "@anthropic-ai/sdk";
const client = new Anthropic({
apiKey: "your-zhipuai-api-key",
baseURL: "https://open.bigmodel.cn/api/anthropic/v1"
});
const message = await client.messages.create({
model: "claude-3-5-sonnet-20241022",
max_tokens: 1024,
messages: [{ role: "user", content: "Hello" }]
});
// 使用 Anthropic Java SDK,设置 baseUrl 为智谱兼容端点
// ApiKey 使用智谱开放平台 API Key
Anthropic client = new Anthropic(
"your-zhipuai-api-key",
"https://open.bigmodel.cn/api/anthropic/v1"
);
更多资源
完整兼容说明、请求/响应字段与错误码请参考 API 文档中的 Claude 兼容章节;如有差异以平台最新文档为准。
OpenAI API 兼容
开发指南
智谱 AI 提供 OpenAI API 兼容接口,您只需修改 API Key 和 base_url,即可将现有基于 OpenAI SDK 的应用无缝切换到智谱 AI 平台。
快速迁移现有的 OpenAI 应用
使用熟悉的开发模式和工具
享受智谱 AI 模型的强大能力
保持代码的一致性和可维护性
⚠
某些场景下智谱 AI 与 OpenAI 接口仍存在差异,但不影响整体兼容性。
核心优势
零学习成本
如果您已经熟悉 OpenAI SDK,可以立即上手使用
快速迁移
现有 OpenAI 应用可以快速迁移到智谱 AI 平台
生态兼容
兼容 OpenAI 生态系统中的各种工具和框架
持续更新
跟随 OpenAI SDK 更新,保持最新功能支持
环境要求
Python 版本: Python 3.7.1 或更高版本。
OpenAI SDK: OpenAI SDK 版本不低于 1.0.0。
安装 OpenAI SDK
使用 pip 安装
pip install openai
使用 poetry 安装
poetry add openai
快速开始
获取 API Key
在智谱 AI 开放平台控制台创建并获取 API Key。
创建客户端
使用 OpenAI SDK 时,将 base_url 设置为智谱 AI 兼容端点,api_key 设置为您的智谱 AI API Key:
from openai import OpenAI
client = OpenAI(
api_key="your-zhipuai-api-key",
base_url="https://open.bigmodel.cn/api/paas/v4/"
)
基础使用示例
简单对话
调用方式与 OpenAI 一致,仅需使用智谱 AI 的模型名(如 glm-4、glm-5):
response = client.chat.completions.create(
model="glm-5",
messages=[{"role": "user", "content": "你好"}]
)
流式响应
设置 stream=True 即可获取流式输出。
多轮对话
在 messages 中按顺序传入多轮 user/assistant 消息即可保持上下文。
高级功能
推理 (thinking)
支持深度思考等模型的推理过程输出,具体以模型能力为准。
函数调用 (Function Calling)
通过 tools 参数传入函数定义,模型可决定是否调用。
图像理解
在消息中传入图像 URL 或 base64,支持视觉模型进行图像理解。
参数配置
常用参数说明
model、messages、max_tokens、temperature、stream 等与 OpenAI 接口含义一致,具体以平台文档为准。
实践建议
性能优化
使用连接池和会话复用
合理设置超时时间
实施异步调用处理高并发
缓存常用的响应结果
成本控制
合理设置 max_tokens 限制
使用合适的模型(不要过度使用强模型)
实施请求去重机制
监控 API 使用量
安全性
使用环境变量存储 API 密钥
实施输入验证和过滤
记录和监控 API 调用
定期轮换 API 密钥
可靠性
实施重试机制和错误处理
设置合理的超时时间
监控 API 状态和响应时间
准备降级方案
迁移指南
从 OpenAI 迁移
如果您已经在使用 OpenAI API,迁移到智谱 AI 非常简单:
原来的 OpenAI 代码:
from openai import OpenAI
client = OpenAI(api_key="sk-...") # OpenAI API Key
# base_url 使用默认值
迁移到智谱 AI,只需要修改两个地方:
from openai import OpenAI
client = OpenAI(
api_key="your-zhipuai-api-key", # 替换为智谱 AI API Key
base_url="https://open.bigmodel.cn/api/paas/v4/" # 添加智谱 AI base_url
)
其他代码保持不变:
response = client.chat.completions.create(
model="glm-5", # 使用智谱 AI 模型
messages=[{"role": "user", "content": "你好"}]
)
更多资源
完整接口说明、错误码与更新日志请参考 API 文档与开放平台控制台。
LangChain 集成
开发指南
智谱支持兼容 LangChain 框架,让您可以使用 LangChain 的强大功能来构建复杂的 AI 应用。
LangChain 是一个用于开发由语言模型驱动的应用程序的框架。智谱与 LangChain 的集成让您能够:
使用 LangChain 的链式调用功能
构建智能代理和工具调用
实现复杂的对话记忆管理
核心优势
框架生态
接入 LangChain 丰富的生态系统和工具链
快速开发
使用预构建的组件快速构建复杂 AI 应用
环境要求
Python 版本
Python 3.8 或更高版本
LangChain 版本
langchain_community 版本在 0.0.32 以上
⚠
请确保 langchain_community 的版本在 0.0.32 以上,以获得最佳的兼容性和功能支持。
安装依赖
基础安装
安装 LangChain 和相关依赖:
pip install langchain langchainhub httpx_sse
安装 OpenAI 兼容包(用于对接智谱 OpenAI 兼容接口):
pip install langchain-openai
完整安装
若需使用 Agent、工具等完整能力,可额外安装 langchain-community 等包,版本请保持 0.0.32 及以上。
快速开始
获取 API Key
在智谱开放平台控制台创建并获取 API Key。
基础配置
使用 ChatOpenAI 时,将 openai_api_base 指向智谱接口,openai_api_key 设置为您的智谱 API Key,model 使用智谱模型名(如 glm-5):
from langchain_openai import ChatOpenAI
llm = ChatOpenAI(
model="glm-5",
openai_api_key="your-zhipuai-api-key",
openai_api_base="https://open.bigmodel.cn/api/paas/v4/"
)
基础使用示例
简单对话
通过 llm.invoke() 或 llm([HumanMessage(content="...")]) 发起单轮对话。
使用提示模板
使用 LangChain 的 PromptTemplate 与 ChatPromptTemplate 构建提示,再传入 LLM 完成调用。
对话记忆管理
使用 ConversationBufferMemory、ConversationBufferWindowMemory 等管理多轮对话上下文。
高级功能
智能代理 (Agent)
结合 LangChain 的 Agent 与工具,让模型根据输入决定是否调用工具并组合多步推理。
# 使用代理
result = agent_executor.invoke({"input": "北京今天天气怎么样?然后帮我查询股票价格"})
print(result['output'])
流式输出
设置 streaming=True 并传入 StreamingStdOutCallbackHandler,即可实时流式输出回复:
from langchain_openai import ChatOpenAI
from langchain.callbacks.streaming_stdout import StreamingStdOutCallbackHandler
from langchain.schema import HumanMessage
# 创建带流式输出的 LLM
llm = ChatOpenAI(
model="glm-5",
openai_api_key="your-zhipuai-api-key",
openai_api_base="https://open.bigmodel.cn/api/paas/v4/",
streaming=True,
callbacks=[StreamingStdOutCallbackHandler()]
)
# 发送消息 (输出会实时流式显示)
response = llm([HumanMessage(content="写一首关于春天的诗")])
实践建议
建议将 API Key 置于环境变量,合理设置 max_tokens 与超时,生产环境配合重试与错误处理;大量调用时可考虑缓存与限流。
更多资源
LangChain 官方文档、智谱 API 文档与示例仓库可提供更详细的集成说明与最佳实践。
开发指南
多种开发方式
开发方式
平台提供多种开发方式,满足不同开发者的需求与习惯。
HTTP API 调用
标准 RESTful API,支持所有编程语言
官方 Python SDK
功能完善的 Python 工具包,支持异步调用与类型安全
官方 Java SDK
企业级 Java 工具包,支持高并发与高可用
OpenAI SDK 兼容
兼容 OpenAI SDK,便于快速迁移
LangChain 集成
与 LangChain 集成,构建复杂 AI 应用
迁移至 GLM-5
从旧版模型迁移
迁移说明
若您当前使用的是旧版模型,可参考文档中的迁移指南,将应用迁移至 GLM-5 系列模型,以获得更好的效果与性能。
文本模型
GLM-5
智谱新一代旗舰基座模型,面向 Agentic Engineering 与长程智能体任务。
概览
GLM-5 是智谱新一代的旗舰基座模型,面向 Agentic Engineering 打造,能够在复杂系统工程与长程 Agent 任务中提供可靠生产力。在 Coding 与 Agent 能力上,GLM-5 取得开源 SOTA 表现,在真实编程场景的使用体感逼近 Claude Opus 4.5,擅长复杂系统工程与长程 Agent 任务,是通用 Agent 助手的理想基座。
能力支持
Function Call 原生工具调用,对接业务 API 与插件生态。
结构化输出 按 Schema 约束输出 JSON,便于系统集成。
GLM in Excel 在表格场景中直接调用模型能力。
推荐场景
智能编码助手、代码生成与重构、仓库级理解与修改
长程任务型 Agent、多步规划与工具编排
企业知识问答、复杂文档分析与摘要
需要大上下文(200K)与长输出(128K)的生产场景
详细介绍
更大基座,更强智能
GLM-5 在基座规模与训练策略上持续迭代,在通用理解、推理与指令遵循上达到旗舰水准,可作为各类上层应用与 Agent 的统一语言核心。
Coding 能力:对齐 Claude Opus 4.5
在真实编程场景中,GLM-5 在代码生成、调试、多文件协作等任务上表现突出,体感与 Claude Opus 4.5 接近,适合作为 IDE 与 CI 流程中的主力模型。
Agent 能力:SOTA 级长程任务执行
面向多步、长链条任务,GLM-5 在规划、反思与工具使用上更稳健,适合构建可长时间运行的自动化 Agent 与工作流。
使用资源
通过 BigHub 开放平台调用时,请使用模型名 glm-5(或与控制台一致的模型编码)。计费与配额以控制台「价格」「财务」为准。
更多参数说明可在左侧菜单查看「核心参数」与「HTTP API 调用」文档。
调用示例 · 基础调用
非流式请求示例(POST /paas/v4/chat/completions):
curl --request POST \
--url https://open.bighub.cn/api/paas/v4/chat/completions \
--header 'Content-Type: application/json' \
--header 'Authorization: Bearer <your-api-key>' \
--data '{
"model": "glm-5",
"messages": [
{ "role": "user", "content": "请为智谱AI开放平台写一句宣传语" }
],
"thinking": { "type": "enabled" },
"max_tokens": 65536,
"temperature": 1.0
}'
调用示例 · 流式调用
将请求体中 "stream": true 开启 SSE 流式输出,逐块返回内容,适合对话与长文本场景。
curl --request POST \
--url https://open.bighub.cn/api/paas/v4/chat/completions \
--header 'Content-Type: application/json' \
--header 'Authorization: Bearer <your-api-key>' \
--data '{
"model": "glm-5",
"messages": [
{ "role": "user", "content": "用一句话介绍 GLM-5" }
],
"stream": true,
"thinking": { "type": "enabled" },
"temperature": 1.0
}'
文本模型
GLM-5-Turbo
面向 OpenClaw 龙虾场景深度优化的基座模型,强化工具调用、长链路与持续性任务能力。
概览
GLM-5-Turbo 是面向 OpenClaw 龙虾场景深度优化的基座模型。其从训练阶段就针对龙虾任务的核心需求进行专项优化,增强如工具调用、指令遵循、定时与持续性任务、长链路执行等核心能力,使其在复杂、动态、长链路的任务中也真正具备可执行性。
能力支持
Function Call 强大的工具调用能力,支持多种外部工具集成。
结构化输出 支持 JSON 等结构化格式输出,便于系统集成。
MCP 可灵活调用外部 MCP 工具与数据源,扩展应用场景。
详细介绍
1 龙虾原生模型
从训练数据构造到优化目标设计,我们围绕真实 Agent 工作流,系统构造了多类龙虾任务场景,使模型在复杂、动态、长链路的任务中真正具备可执行性。重点增强了以下核心能力:
Tool Calling——精准调用,不掉链子: GLM-5-Turbo 强化了对外部工具与各类 Skills 的调用能力,在多步任务中更稳定、更可靠,让龙虾任务从对话走向执行。
Instruction Following——复杂指令拆解更强: 对复杂、多层、长链路指令具备更强的理解与拆解能力,能准确识别目标、规划步骤,并支持多智能体协同分工。
定时与持续性任务——更懂时间维度,长任务不中断: 针对定时触发、持续执行、长时运行等场景优化,更好理解时间约束,在复杂长任务中保持连续执行。
高吞吐长链路——执行更快更稳: 面向大数据吞吐与长逻辑链的龙虾任务,进一步提升执行效率与响应稳定性,更贴近真实业务流程。
2 龙虾场景基准 ZClawBench
随着 OpenClaw 龙虾生态普及,在龙虾场景下评测模型能力已成为行业关注焦点。基于大量真实 OpenClaw 用例分析,我们发布面向龙虾场景的端到端 Agent 评测基准 ZClawBench 。
当前 OpenClaw 任务类型已覆盖安装配置、代码开发、信息搜集、数据分析、内容创作等多元场景;用户群体从早期开发者扩展到效率办公、金融从业、运维、内容创作与投研等。Skills 使用占比在短期内由约 26% 快速提升至约 45%,表明 Agent 能力正朝模块化、技能化生态演进。
ZClawBench:龙虾场景能力评测
雷达图从多维度对比模型在龙虾场景下的表现,典型维度包括:安装配置 、开发与运维 、数据分析与总结 、办公和日常事务 、信息查询和搜集 等。GLM-5-Turbo 在多项维度上表现突出。
ZClawBench 的题库与测试轨迹已全面公开,欢迎业界共同验证与完善。
使用资源
调用时请使用模型名 glm-5-turbo(或与控制台一致的编码)。计费以控制台为准。
体验中心: 快速测试模型在业务场景上的效果(见控制台体验入口)。
接口文档: 左侧菜单「API 文档」→ 对话补全等页面查看 API 调用方式。
接入 OpenClaw: 可在 OpenClaw 中配置本平台 API Key 与端点,调用 GLM-5-Turbo。
调用示例
基础调用(POST /paas/v4/chat/completions,模型 glm-5-turbo):
curl --request POST \
--url https://open.bighub.cn/api/paas/v4/chat/completions \
--header 'Content-Type: application/json' \
--header 'Authorization: Bearer <your-api-key>' \
--data '{
"model": "glm-5-turbo",
"messages": [
{ "role": "user", "content": "智谱AI开放平台" }
],
"thinking": { "type": "enabled" },
"max_tokens": 65536,
"temperature": 1.0
}'
流式调用时在请求体中增加 "stream": true 即可。
文本模型
GLM-4.7
智谱最新旗舰文本模型,面向 Agentic Coding 强化编码、长程规划与工具协同。
概览
GLM-4.7 系列是智谱最新旗舰模型,面向 Agentic Coding 场景强化了编码能力、长程任务规划与工具协同,并在多个公开基准的当期榜单中取得开源模型中的出色表现。通用能力提升,回复更简洁自然,写作更具沉浸感。在执行复杂智能体任务、工具调用时指令遵循更强,Artifacts 与 Agentic Coding 的前端美感与长程任务完成效率进一步提升。
GLM-4.7
GLM-4.7-FlashX
能力支持
Function Call 强大的工具调用能力,支持多种外部工具集成。
结构化输出 支持 JSON 等结构化格式输出,便于系统集成。
MCP 可灵活调用外部 MCP 工具与数据源,扩展应用场景。
推荐场景
Agentic Coding :终端 Agent、多文件工程与编码助手
多模态交互与实时应用开发 (配合平台多模态链路)
前端视觉审美优化 :网页、PPT、海报等生成与迭代
高质量对话与复杂问题协作
沉浸式写作与角色驱动创作
详细介绍
1 Coding 能力全面提升
GLM-4.7 在编程、推理与智能体三个维度实现显著突破:
更强的编程能力: 在多语言编码与终端 Agent 场景中表现更稳;在 Claude Code、Kilo Code、TRAE、Cline、Roo Code 等编程框架下,「先思考再行动」机制使复杂任务更可靠。
前端审美提升: 网页、PPT、海报等生成质量更好,视觉更协调。
更强的工具调用能力: BrowseComp 网页任务、T²-Bench 交互式工具调用等评测中表现突出,整体对齐或超越主流闭源与开源标杆。
推理能力提升: 数学与推理类任务显著进步;在 HLE 等高难度推理基准上相对 GLM-4.6 有明显提升。
通用能力增强: 对话更简洁自然、有温度;写作与角色扮演更具沉浸感。
在 LMArena 等公开对战评测中,GLM-4.7 在 WebDev 等赛道位居前列,开源模型中表现领先(具体排名以当期榜单为准)。
2 真实编程场景下的体感提升
在主流基准中,GLM-4.7 代码能力对齐 Claude Sonnet 4.5 一线水平:SWE-bench Verified 取得开源领先;LiveCodeBench V6 达到约 84.9 的开源 SOTA 分数;SWE-bench Verified 约 73.8% (较 GLM-4.6 提升约 5.8%),SWE-bench Multilingual 约 66.7% (提升约 12.9%),Terminal Bench 2.0 约 41% (提升约 16.5%)。以下为 128K 上下文下部分公开基准对比(数值供参考,以官方最新发布为准):
基准 GLM-4.7 GLM-4.6 说明
AIME 25 95.7 93.9 数学推理
LiveCodeBench v6 84.9 82.8 实时代码
GPQA-Diamond 85.7 81.0 科学问答
HLE 42.0 — 高难度综合
SWE-bench Verified 73.8% 68.0% 软件工程修复
Terminal Bench 2.0 41.0 26.5 终端任务
τ²-Bench 87.4 71.2 工具交互
BrowseComp 52.0 45.7 网页浏览任务
子页签如「实际编程任务表现」「思考能力的可控进化」「综合任务执行能力」「前端审美提升」等可在控制台与官方发布中查看更细案例与对比。
使用资源
调用模型名建议使用 glm-4.7 或与控制台一致的编码;FlashX 等变体以控制台展示为准。计费与配额见「价格」「财务」。
体验中心:快速验证编码与对话效果
API 文档:左侧「API 文档」→ 对话补全
编码套餐:Agentic Coding 场景可搭配编码套餐与专属端点
调用示例
curl --request POST \
--url https://open.bighub.cn/api/paas/v4/chat/completions \
--header 'Content-Type: application/json' \
--header 'Authorization: Bearer <your-api-key>' \
--data '{
"model": "glm-4.7",
"messages": [
{ "role": "user", "content": "用 Python 写一个读取 JSON 文件的函数" }
],
"thinking": { "type": "enabled" },
"max_tokens": 8192,
"temperature": 0.7
}'
流式调用请设置 "stream": true。
文本模型
GLM-4.6
智谱高性能文本模型,适合编码、长上下文与智能体等场景;以下为能力说明与接入参考,业务效果请以实测为准。
概览
GLM-4.6 是智谱面向通用与专业任务优化的语言模型。公开技术介绍中常提及总参数量约 355B 、激活参数量约 32B (具体以官方发布为准)。相对 GLM-4.5,在多项核心能力上有所加强,更适合长文档、代码与工具协同类 workload。
编码能力: 在公开基准与常见编程任务中,整体表现可与 Claude Sonnet 4 等一线模型对标;具体能否满足您的工程标准,建议用真实仓库与评审流程验证。
上下文长度: 由 128K 提升至 200K ,便于长代码、多文件 diff、长对话 Agent 等场景(仍需注意成本与延迟)。
推理与工具: 推理链路可增强,并支持在推理过程中结合工具调用,适合需要「想一步、查一步」的任务。
搜索与 Agent: 在工具调用、搜索类 Agent 框架中表现更稳,适合构建研究助手、运维排查等流程。
写作与对话: 文风、可读性与角色扮演等维度更贴近常见偏好,适合客服话术、营销文案、剧本等(涉合规内容请配合审核策略)。
多语言与翻译: 跨语言理解与翻译任务上相对前代有提升,适合国际化产品与双语工作流。
能力支持
以下为平台侧常见能力说明;是否开通以控制台与接口文档为准。
思考模式 可按任务开启推理过程,适合数学、复杂决策与分步规划(会增加 token 与耗时)。
流式输出 支持 SSE 流式返回,便于对话类产品逐字展示与提前中断。
Function Call 结构化工具调用,对接自有 API、数据库查询与业务动作。
上下文缓存 长对话场景可降低重复前缀成本(具体策略见计费说明)。
结构化输出 JSON 等格式约束,便于对接下游系统与自动化流水线。
搜索 / 工具扩展 可与网络搜索、MCP 等能力组合,构建研究型或运维型 Agent。
Benchmark
基准分数在固定评测集与协议下测得,不等同于 您业务上的成功率;上线前请用自有样本做 A/B 或人工抽检。
1. 综合评测
在覆盖推理、代码、Agent 交互与网页任务等多类能力的权威基准中(如 AIME 25、GPQA、LiveCodeBench v6、HLE、SWE-bench Verified、BrowseComp、Terminal-Bench、τ²-Bench 等),GLM-4.6 在多数榜单 上与 Claude Sonnet 4 处于同一梯队。下表为约 128K 上下文 设定下的参考数值(来源为公开技术材料,版本更新后可能变化):
基准 GLM-4.6 GLM-4.5(参考) 侧重
AIME 25 98.6 — 数学竞赛式推理
GPQA 84.5 — 研究生级科学问答
LiveCodeBench v6 82.8 — 实时代码生成
HLE 30.4 — 高难度综合
BrowseComp 45.1 — 浏览与信息整合
SWE-bench Verified 75.9% — 真实仓库补丁修复
Terminal-Bench 40.5 — 终端命令类任务
τ²-Bench 71.2 — 多轮工具交互
不同机构榜单的模型版本、采样参数与评测脚本不一致时,分数不可横向简单换算 。
2. 真实编程评测
SWE-bench Verified / Multilingual 等任务使用真实开源 Issue 与补丁,更贴近「修 bug、改需求」的工程形态;LiveCodeBench 侧重竞赛/leetcode 风格的新题生成。Terminal-Bench 则反映 shell 级自动化能力。
实用建议:
用本仓库 3~5 个典型 PR(小功能、重构、修 bug)做盲测,对比人工合并意愿。
对 Agent 产品:记录「工具调用成功率、重试次数、任务完成率」,比单次分数更有参考价值。
长上下文场景:在接近真实 token 长度的输入上测延迟与截断行为,避免仅在短 prompt 上验收。
推荐场景
AI Coding: IDE 插件、代码补全、单测生成、Code Review 辅助;建议配合静态分析与 CI。
智慧办公: 会议纪要、周报、表格归纳、邮件草稿;注意敏感信息脱敏。
翻译与跨语言应用: 产品文案本地化、双语客服、技术文档翻译。
内容创作: 营销文案、脚本、知识库扩写;需品牌与合规审核。
虚拟角色: 游戏/社交 NPC、客服人设;建议加安全与内容策略。
智能搜索与深度研究: 检索增强、多步调研报告;建议引用可追溯来源。
使用资源
体验中心: 在控制台快速验证模型在业务 prompt 上的效果,再决定是否接入 API。
接口文档: 左侧「API 文档」→ 对话补全;参数与限流以各接口页为准。
模型与计费: 模型 ID 以控制台可用列表为准(常见为 glm-4.6);费用见「价格」「财务」。
调用示例
以下为通用对话补全示例;请将 API Key 与模型名替换为控制台实际值。Python / Java 可与「HTTP API 调用」「官方 SDK」章节对照。
cURL · 基础调用
curl --request POST \
--url https://open.bighub.cn/api/paas/v4/chat/completions \
--header 'Content-Type: application/json' \
--header 'Authorization: Bearer <your-api-key>' \
--data '{
"model": "glm-4.6",
"messages": [
{ "role": "user", "content": "用 Python 实现一个简单的 LRU 缓存类" }
],
"max_tokens": 4096,
"temperature": 0.7
}'
Python(OpenAI 兼容客户端示意)
与「OpenAI API 兼容」文档一致:将 base_url 指向 BigHub 网关、model 填控制台可用 ID。
from openai import OpenAI
client = OpenAI(
api_key="your-api-key",
base_url="https://open.bighub.cn/api/paas/v4",
)
r = client.chat.completions.create(
model="glm-4.6",
messages=[{"role": "user", "content": "你好"}],
)
print(r.choices[0].message.content)
流式调用设置 "stream": true;推理场景可配置 thinking(见核心参数)。
文本模型
GLM-4.5
面向智能体应用的 MoE 文本模型系列;部分型号已进入下线窗口,新项目建议优先评估 GLM-4.7 / GLM-4.6 或 GLM-5。
概览
GLM-4.5 与 GLM-4.5-Air 等同系列型号,定位为智能体与工具协同场景的基础模型,均采用 MoE(混合专家) 架构。公开资料中:GLM-4.5 总参数量约 3550 亿 、激活约 320 亿 ;GLM-4.5-Air 总参数量约 1060 亿 、激活约 120 亿 (以控制台与官方说明为准)。
训练上,系列模型通常在超大规模通用语料上预训练,并针对代码、推理、智能体 等方向做后训练;上下文长度扩展至 128K ;强化学习用于增强推理、编码与 Agent 表现。产品侧强调对工具调用、网页浏览、软件工程、前端开发 等任务的优化,可与 Claude Code、Roo Code 等编码助手类工具集成,也可通过标准工具接口接入任意 Agent 应用。
推理侧提供混合推理模式 :可通过 thinking.type 选择 enabled(思考模式,适合复杂推理与多步工具)或 disabled(非思考模式,低延迟直出)。默认策略以接口文档为准。
GLM-4.5 系列模型
重要提示: 据平台模型列表,GLM-4.5、GLM-4.5-X 等部分型号标注为即将下线。新建项目建议优先选用 GLM-4.7 等旗舰文本模型,并在控制台确认当前可购与可调用型号。
下列定位为常见产品描述,实际计费、速率与是否开放以控制台为准。
GLM-4.5
系列中的高容量推理向 型号,参数量大,适合复杂推理、长链工具调用与高质量代码生成等对上限要求高的场景。
GLM-4.5-Air
高性价比、轻量激活 ,在成本与延迟敏感、仍希望保留较强通用与编码能力的场景中常用。
GLM-4.5-X
侧重高性能与强推理 、响应更快的一类变体(具体相对 Air/标准版的差异以控制台说明为准)。
GLM-4.5-AirX
在 Air 路线上的加速向 产品,平衡轻量、性能与首 token 时延。
GLM-4.5-Flash
面向免费或低门槛试用 的型号,适合功能验证与轻量任务;能力与配额通常弱于付费型号,且可能随运营策略调整。
能力支持
深度思考 开启思考模式后,可进行多步推理再作答或再调工具,适合数学、规划类任务(增加耗时与 token)。
流式输出 支持 SSE 流式返回,便于对话与编码助手类产品实时展示。
Function Call 结构化工具调用,对接检索、计算、业务 API 等。
上下文缓存 长对话场景可配合缓存策略降低重复前缀成本(见计费说明)。
结构化输出 可约束 JSON 等格式,便于流水线解析。
浏览 / 搜索协同 可与网页阅读、网络搜索等能力组合(以平台实际开放能力为准)。
Benchmark
榜单为固定评测集上的相对分数,不能替代您业务上的成功率与满意度。
总览
GLM-4.5 系列在公开基准中常与同代闭源模型在编码、推理、Agent 工具交互 等维度处于可比区间;不同榜单的模型版本与评测脚本不一致时,不宜跨表直接排名 。选型建议:列出 2~3 个与业务相关的任务类型,用自有样本做小规模对比。
更高的参数效率
MoE 通过稀疏激活在相近效果下控制单次推理算力:Air / AirX 等型号以更小激活规模服务高频、低成本调用;GLM-4.5 全量型号则偏向「上限」场景。实际 QPS 与单价请以控制台为准。
低成本、高速度
Flash、Air 等线路通常单价更低、首包更快,适合对话轮次多、对延迟敏感的产品;若任务涉及长推理或多轮工具,需在体验中心实测是否需升级到标准版或新一代模型。
真实体验
建议在真实 prompt、真实工具链 下评估:同一批用户问题上的采纳率、工具调用成功率、平均轮次与成本。体验中心会消耗 token;失败时可检查配额或选购资源包,详见控制台提示。
推荐场景
1. 建议先阅读使用指南与核心参数,再在体验中心试跑典型 prompt。2. 体验会消耗 token;若失败请检查配额或选购资源包。
网页搭建 / 前端原型: 根据自然语言生成页面结构或组件代码,建议配合人工审阅与可访问性检查。
AI 助手: 客服、内部知识问答;长文档可放在 128K 窗口内分段或配合 RAG。
智慧办公: 纪要、周报、表格归纳;注意脱敏与合规。
智能问答: 多轮澄清与引用式回答;重要结论需溯源。
复杂文本翻译: 术语一致性与文体保持;专业领域建议术语表或后编。
内容创作: 营销文案、脚本等;需品牌与审核流程。
虚拟角色: 人设对话与剧情;需内容安全策略。
编码向: 智能代码生成、实时代码补全、Bug 修复辅助等——建议与 IDE、CI 及 Code Review 流程结合,避免未审代码直接入库。
使用资源
体验中心: 快速验证各子型号在业务话术上的表现。
API 文档: 对话补全、thinking、stream 等参数见「API 文档」与「核心参数」。
模型 ID: 以控制台列表为准(如 glm-4.5、glm-4.5-air 等,实际字符串可能随版本变化)。
输出长度: GLM-4.5 系列常见最大输出约 96K tokens(与 GLM-4.6 的 128K 不同),请按需设置 max_tokens。
调用示例
思考模式
复杂任务可开启 thinking;简单问答可关闭以降低延迟与费用。
{
"model": "glm-4.5",
"messages": [{ "role": "user", "content": "分析以下需求并给出实现步骤…" }],
"thinking": { "type": "enabled" },
"max_tokens": 4096
}
示例代码
cURL(模型名请替换为控制台可用 ID):
curl --request POST \
--url https://open.bighub.cn/api/paas/v4/chat/completions \
--header 'Content-Type: application/json' \
--header 'Authorization: Bearer <your-api-key>' \
--data '{
"model": "glm-4.5",
"messages": [
{ "role": "user", "content": "用 JavaScript 写一个防抖函数" }
],
"thinking": { "type": "disabled" },
"max_tokens": 2048,
"temperature": 0.6
}'
OpenAI 兼容(Python):
from openai import OpenAI
client = OpenAI(api_key="your-api-key", base_url="https://open.bighub.cn/api/paas/v4")
r = client.chat.completions.create(
model="glm-4.5-air",
messages=[{"role": "user", "content": "你好"}],
)
print(r.choices[0].message.content)
流式请加 "stream": true。
视觉理解模型
GLM-4.6V
旗舰视觉推理与多模态 Agent 底座;模型 ID、配额与价格以控制台为准。
概览
GLM-4.6V 系列 是 GLM 在多模态方向的重要迭代,包含 GLM-4.6V (旗舰)、GLM-4.6V-FlashX (轻量高速)、GLM-4.6V-Flash (免费体验向)等子型号。训练上下文提升至 128K tokens ;在视觉理解精度上达到同参数量级的公开领先水平,并在架构上将 Function Call(工具调用) 与视觉能力原生融合,便于从「视觉感知」走向「可执行行动」,为业务侧多模态 Agent 提供统一接口。
GLM-4.6V
GLM-4.6V-FlashX
价格说明: GLM-4.6V 系列计费规则请前往控制台 价格 页查看;不同子型号单价可能不同。
能力支持
深度思考 复杂图文、多步推理场景可配合思考模式(以接口参数为准)。
流式输出 支持流式返回描述与推理过程,提升交互体验。
原生多模态工具调用 图像、截图、文档页等可直接参与工具参数与结果回注,减少「先 OCR 再调工具」的链路损耗。
视频与多图 支持视频帧理解与多图联合问答(具体路数与大小限制见 API 文档)。
文档与图表 复杂版式、表格与图表的结构化理解与问答。
结构化输出 可约束 JSON 等格式,便于对接业务系统。
推荐场景
图片理解
图片 OCR、内容理解与属性提取等;以下为常见能力映射,实际效果依赖图像质量与 prompt。
典型场景 功能项 能力描述
发票、证件、手写表单录入 通用 OCR 识别 印刷体、手写体、楷体、艺术字等
工程造价清单、报关单、财务报表 复杂表格解析 多层表头、合并单元格、跨页表格等
手机随手拍、现场单据 抗干扰识别 透视变形、模糊、光照不均、复杂背景、折痕、污渍等
商品价格采集、分拣、货架检测 商品属性识别 品牌、类目、材质、颜色、款式等多维属性
内容打标、素材分析 图像内容分析 场景类型、人物行为、氛围情绪、拍摄角度等语义
屏幕/商品/工业质检 瑕疵缺陷检测 污渍、破损、变形、色差、划痕等
AIGC 反推、素材标签 图片反推提示词(Image2Prompt) 理解画面内容、风格、构图与光影,生成可复用绘画提示词
养殖、施工现场等 物体检测与计数 定位多目标并计数,适用于密集、遮挡、尺度多变场景(需结合评测验证精度)
视频理解
视频摘要、关键帧事件检测、监控与安防语义理解、教学内容拆解等。建议控制单段时长与分辨率,并按平台限制分片上传或抽帧。
文档 / 复杂图表问答
研报、标书、PPT、扫描件中的图表与正文联合问答;多页文档可配合 RAG 或分页调用以控制上下文与成本。
使用资源
体验中心: 上传图/视频快速验证效果。
API 文档: 对话补全等多模态入参格式见「API 文档」。
模型名: 以控制台为准(如 glm-4.6v 等)。
详细介绍
同规模开源 SOTA
公开技术材料中,GLM-4.6V 在相近参数规模的视觉理解榜单上常处于领先区间;不同评测集与协议下分数不可直接对比 。选型请以业务场景下的抽检与 A/B 为准。
调用示例
基础与流式
纯文本调用与文本模型相同;流式增加 "stream": true。
curl --request POST \
--url https://open.bighub.cn/api/paas/v4/chat/completions \
--header 'Content-Type: application/json' \
--header 'Authorization: Bearer <your-api-key>' \
--data '{
"model": "glm-4.6v",
"messages": [
{ "role": "user", "content": "用三句话介绍视觉大模型的典型用途" }
],
"max_tokens": 1024
}'
多模态理解
messages 中 content 可为多段数组:文本 + 图片 URL 或 Base64(具体字段以当前 API 文档为准)。
{
"model": "glm-4.6v",
"messages": [
{
"role": "user",
"content": [
{ "type": "text", "text": "图中主要文字与布局是什么?" },
{ "type": "image_url", "image_url": { "url": "https://example.com/sample.png" } }
]
}
],
"max_tokens": 2048
}
若使用 OpenAI 兼容客户端,将 base_url 指向 BigHub,模型名填控制台可用视觉模型 ID。
API 指引
使用概述
API 参考文档描述了您可用于与 BigHub 大模型开放平台交互的 RESTful API 详情信息,您也可以通过各接口页的「Try it」按钮调试 API。
BigHub 开放平台提供标准 HTTP API 接口,支持多种编程语言与开发环境,同时提供 SDK 便于开发者调用。
API 端点
BigHub 开放平台通用 API 端点如下:
https://open.bighub.cn/api/paas/v4
注意: 使用 GLM 编码套餐时,需配置专属 Coding 端点 https://open.bighub.cn/api/coding/paas/v4,而非通用端点 https://open.bighub.cn/api/paas/v4。Coding API 端点仅限 Coding 场景,不适用于通用 API 场景,请区分使用。
身份验证
开放平台 API 使用标准 HTTP Bearer 进行身份验证。认证需要 API 密钥,您可在 API Key 页面 创建或管理。
在 HTTP 请求头中提供 API Key,格式如下:
Authorization: Bearer YOUR_API_KEY
建议将 API Key 设置为环境变量,避免在代码中硬编码,以保障安全。
调用示例
以下为对话补全接口的示例,请将 YOUR_API_KEY 替换为您的 API Key,glm-5 等模型名以控制台实际可用为准。
cURL
Python SDK
Java SDK
curl -X POST 'https://open.bighub.cn/api/paas/v4/chat/completions' \
-H 'Content-Type: application/json' \
-H 'Authorization: Bearer YOUR_API_KEY' \
-d '{
"model": "glm-5",
"messages": [
{ "role": "system", "content": "你是一个有用的AI助手。" },
{ "role": "user", "content": "你好,请介绍一下自己。" }
],
"temperature": 1.0,
"stream": true
}'
from zhipuai import ZhipuAI
client = ZhipuAI(api_key="YOUR_API_KEY")
response = client.chat.completions.create(
model="glm-5",
messages=[
{"role": "system", "content": "你是一个有用的AI助手。"},
{"role": "user", "content": "你好,请介绍一下自己。"}
],
temperature=1.0,
stream=True
)
for chunk in response:
print(chunk.choices[0].delta.content or "", end="")
import cn.bighub.sdk.BigHubClient;
import cn.bighub.sdk.chat.ChatCompletionRequest;
BigHubClient client = new BigHubClient("YOUR_API_KEY");
ChatCompletionRequest req = ChatCompletionRequest.builder()
.model("glm-5")
.message("system", "你是一个有用的AI助手。")
.message("user", "你好,请介绍一下自己。")
.temperature(1.0f)
.stream(true)
.build();
client.chat().createStreaming(req).forEach(chunk ->
System.out.print(chunk.getContent())
);
API 指引
错误码
调用 BigHub 大模型开放平台 API 时,响应中的错误信息由两部分组成:外层为 HTTP 状态码,内层为响应体中定义的业务错误码,用于更具体地描述错误原因。
HTTP 状态错误码
状态码 原因 解决方法
200 业务处理成功 —
400 参数错误 检查接口参数是否正确
400 文件内容异常 检查 jsonl 文件内容是否符合要求
401 鉴权失败或 Token 超时 确认 API Key 和鉴权 token 是否正确生成
404 微调功能未开放 联系客服以开通此功能
404 微调任务不存在 确保微调任务 ID 正确
429 接口请求并发超额 调整请求频率或联系商务扩大并发数
429 上传文件频率过快 短暂等待后重新请求
429 账户余额已用完 进行账户充值以确保余额充足
429 账户异常 账户存在违规行为,请联系平台客服解除相关锁定
429 终端账号异常 终端用户存在违规行为,账号已被锁定
434 暂无 API 权限(微调 API 及文件管理 API 为内测阶段) 等待接口正式开放或请联系平台客服申请内测
435 文件大小超过 100MB 使用小于 100MB 的 jsonl 文件或分批上传
500 服务器处理请求时发生错误 稍后重试或联系客服
业务错误码
错误分类 错误码 错误信息
基础错误 500 内部错误
身份验证错误 1000 身份验证失败
身份验证错误 1001 Header 中未收到 Authentication 参数,无法进行身份验证
身份验证错误 1002 Authentication Token 非法,请确认 Authentication Token 正确传递
身份验证错误 1003 Authentication Token 已过期,请重新生成/获取
身份验证错误 1004 通过 Authentication Token 的验证失败
账户错误 1110 您的账户当前处于非活动状态,请检查账户信息
账户错误 1111 您的账户不存在
账户错误 1112 您的账户已被锁定,请联系客服解锁
账户错误 1113 您的账户已欠费,请充值后重试
账户错误 1120 无法成功访问您的账户,请稍后重试
账户错误 1121 账户存在违规行为,账号已被锁定
错误响应示例
以下是 curl 请求的响应报文示例,其中 401 为 HTTP 状态码,1002 为业务错误码。
< HTTP/2 401
< date: Mon, 01 Jan 2024 00:00:00 GMT
< content-type: application/json
< server: nginx/1.21.6
{"error":{"code":"1002","message":"Authorization Token非法,请确认Authorization Token正确传递"}}
注
使用流式(SSE)调用时,若 API 在推理过程中异常终止,不会返回上述错误码,而是在响应体的 finish_reason 参数中返回异常原因,详情请参考 finish_reason 的参数说明。
速率限制
API 调用频率与并发说明
为保障平台服务稳定性、模型资源的公平使用以及整体服务质量,BigHub 大模型开放平台对 API 调用实施速率限制(Rate Limits) 机制。下面对速率限制的触发场景、常见错误码及应对方式进行说明。
通用 API 用户: 可通过控制台「速率限制」查看您账户目前各模型可调用的速率。GLM Coding 套餐用户: 速率(并发数)限制与套餐等级相关,平台会根据资源动态调整,低峰期享有更高速率,基本原则 Max > Pro > Lite。
一、什么是速率限制?
速率限制是指平台在一定时间窗口内,对单个账户或调用方的 API 并发请求数等进行限制。
并发请求数限制: 对同一账户的并发调用数量设限。
按模型划分: 不同模型设有独立的并发限制。
按权益与套餐划分: 不同用户权益等级、不同套餐对应不同的并发限制。
高峰期策略: 高峰期的动态限流与平台级保护策略。
二、为什么需要速率限制?
速率限制是业界大模型 API 的通用做法,其核心目的包括:
保障平台整体稳定性: 防止瞬时高并发请求对模型服务造成冲击;通过设置速率限制,可最大程度帮助用户保持稳定体验。
确保用户间公平使用: 避免个别账户在高并发场景下占用过多资源,影响其他用户正常调用。
防范异常流量或误用: 包括程序异常、无限重试、非预期高频调用等情况。
三、开放平台速率限制机制说明
平台从多个维度对 API 调用进行限速与并发控制。
1. 按用户权益等级 & 模型维度划分的并发限制
如果您是通用 API 用户,平台对不同模型设置了不同的并发数上限。您可通过控制台速率限制 查看您账户目前各模型可调用的速率。
通用文本/对话模型
图像/视频生成模型
向量模型
实时音视频模型
同时,速率限制量级与您的用户权益等级相关,可通过控制台用户权益 查看自己的积分与权益等级。
2. 按 GLM Coding 套餐等级划分的并发限制
若您使用 GLM Coding 套餐,并发限制与套餐等级(Lite / Pro / Max)相关:
Lite: 建议同时进行单个项目的开发。
Pro: 建议同时进行 1~2 个项目的开发。
Max: 建议同时进行 2+ 个项目的开发。
套餐用户在低峰期将享有更高的并发权益(动态提升),能够支撑更多数量的项目开发。
3. 高峰期的限流策略
在业务高峰时段(如工作日下午等),若某一账户在短时间内发起大量并发请求,超出该账户在对应模型上的并发上限,平台将按账户维度 实施限流,而非使该模型对所有人不可用。
4. 平台级服务过载说明
除账户自身的速率限制外,在以下情况下平台可能触发平台级 保护机制:
某模型在短时间内整体访问量激增;
底层算力资源处于高负载状态;
平台进行系统维护、扩容或异常恢复。
此类情况属于平台服务过载,与单一账户的调用行为无直接关系。
四、相关错误码
1. 错误码 1302:触发用户速率限制
错误含义: 您的账户已达到速率限制,请您控制请求频率。
典型原因:
当前模型的并发请求数已达到账户上限;
短时间内请求过于密集。
建议处理方式:
2. 错误码 1305:平台服务过载
表示平台侧因整体负载或保护策略触发了限流,与单账户并发无直接关系。建议稍后重试或错峰调用。
五、如何合理应对速率限制?
1. 控制并发与请求频率
在客户端控制同时发起的请求数,避免在短时间内集中发起大量请求;可配合退避重试(如指数退避)使用。
2. 异步请求或批处理 API
对于非实时场景,可优先使用异步接口或批处理 API,提交任务后轮询结果,从而降低对实时并发的依赖。
六、如何申请提升速率限制?
GLM Coding 套餐用户: 按订阅套餐等级统一并发,暂不支持申请调整。
若您使用的是通用 API ,且业务确实需要更高并发能力,可通过控制台提交申请:
进入控制台【速率限制调整申请】 ;
填写以下信息:需要调整的模型、期望增加的并发数量、实际使用场景与业务说明。
平台将在 10 个工作日内完成审核,审核结果将通过注册手机号或站内通知告知。
对话补全
与指定模型对话,模型根据请求给出响应。支持多种模型,支持多模态(文本、图片、音频、视频、文件),流式和非流式输出,可配置采样、温度、最大令牌数、工具调用等。
POST
/paas/v4/chat/completions
身份验证
请求头 Authorization(string,必填),使用 Bearer 方式:Authorization: Bearer <API_KEY>。
请求体
Content-Type: application/json
参数 类型 必填 说明
model string 是 模型 ID,如 glm-5、glm-5-turbo,以控制台可用为准
messages array 是 对话消息列表,按时间顺序,支持 system / user / assistant / tool 角色
temperature number 否 采样温度,控制随机性
max_tokens integer 否 最大生成 token 数
stream boolean 否 是否流式返回,默认 false
messages 中每项包含 role(system | user | assistant | tool)与 content(文本或多模态内容)。通用对话模型主要支持纯文本及工具调用;不能仅包含 system 或 assistant 消息。
对话补全 (异步)
和指定模型对话,通过查询异步结果 获取模型响应。支持多种模型,支持多模态(文本、图片、音频、视频、文件),可配置采样、温度、最大令牌数、工具调用等。此为异步接口,提交后需通过「查询异步结果」接口获取生成结果。
POST
/paas/v4/async/chat/completions
身份验证
请求头 Authorization(string,必填),使用 Bearer 方式:Authorization: Bearer <API_KEY>。
请求体
Content-Type: application/json
参数 类型 必填 说明
model string 是 模型 ID,如 glm-5、glm-5-turbo,以控制台可用为准
messages array 是 对话消息列表,按时间顺序,支持 system / user / assistant / tool 角色
user_id string 否 终端用户唯一标识,长度 6~128 字符
temperature number 否 采样温度,控制随机性
max_tokens integer 否 最大生成 token 数
messages 中每项包含 role 与 content。通用对话模型主要支持纯文本及工具调用。
响应
提交成功返回任务信息,需再调用查询异步结果 接口根据 id 或 request_id 获取生成结果。
字段 类型 说明
model string 所使用模型名称
id string 生成的任务 ID
request_id string 用户或平台提交的任务编号
task_status string 处理状态:PROCESSING(处理中)、SUCCESS(成功)、FAIL(失败)
视频生成 (异步)
通过调用视频模型 能力生成视频内容。支持多种视频生成方式,包括文本转视频、图像转视频等。注意此为异步接口,通过查询异步结果 获取生成视频结果。
POST
/paas/v4/videos/generations
身份验证
请求头 Authorization(string,必填),使用 Bearer 方式:Authorization: Bearer <API_KEY>。
请求体
Content-Type: application/json
不同视频模型(如 CogVideoX-3、CogVideoX、Vidu 文生视频/图生视频等)参数略有差异,以下为通用常见参数。
参数 类型 必填 说明
model string 是 要调用的模型编码,如 cogvideox-3、cogvideox 等
prompt string 是 文本描述,用于文生视频
quality string 否 画质档位,如 "quality"
with_audio boolean 否 是否生成音频
size string 否 分辨率,如 "1920x1080"
fps integer 否 帧率,如 30
响应
业务处理成功。提交后返回任务信息,需再调用查询异步结果 接口根据 id 或 request_id 获取生成结果。
字段 类型 说明
model string 此次调用使用的模型名称
id string 生成的任务 ID,调用请求结果接口时使用此 ID
request_id string 用户在客户端请求期间提交的任务编号或平台生成的任务编号
task_status string 处理状态:PROCESSING(处理中)、SUCCESS(成功)、FAIL(失败)。结果需通过查询获取
图像生成 (异步)
使用 GLM-Image 系列模型从文本提示生成高质量图像。通过对用户文字描述快速、精准的理解,让 AI 的图像表达更加精确和个性化。仅支持 GLM-Image 模型。此为异步接口,通过查询异步结果 获取生成图像结果。
POST
/paas/v4/async/images/generations
身份验证
请求头 Authorization(string,必填),使用 Bearer 方式:Authorization: Bearer <API_KEY>。
请求体
Content-Type: application/json
参数 类型 必填 说明
model string 是 模型编码,可选值如 glm-image,示例:"glm-image"
prompt string 是 文本描述,用于生成图像
size string 否 生成图像尺寸,如 "1280x1280"
响应
业务处理成功。提交后返回任务信息,需再调用查询异步结果 接口根据 id 或 request_id 获取生成结果。
字段 类型 说明
model string 此次调用使用的模型名称
id string 生成的任务 ID,调用请求结果接口时使用此 ID
request_id string 用户在客户端请求期间提交的任务编号或平台生成的任务编号
task_status string 处理状态:PROCESSING(处理中)、SUCCESS(成功)、FAIL(失败)。结果需通过查询获取
查询异步结果
查询对话补全、视频生成、图像生成等异步请求的处理结果和状态。提交异步任务后,使用本接口根据任务 id 获取最终结果。
GET
/paas/v4/async-result/{id}
身份验证
请求头 Authorization(string,必填),使用 Bearer 方式:Authorization: Bearer <API_KEY>。
路径参数
参数 类型 必填 说明
id string 是 任务 ID,即提交异步接口时返回的 id
响应
业务处理成功。返回异步任务的结果或当前状态;若任务未完成,task_status 为 PROCESSING,可稍后再次查询。
字段 类型 说明
id string 任务 ID
request_id string 请求 ID
created integer 请求创建时间,Unix 时间戳(秒)
model string 模型名称
choices array 模型响应列表,每项含 index、message(role、content、reasoning_content、audio、tool_calls 等)
响应中可能还包含 content_filter(内容安全相关信息)、web_search.refer(角标序号)等字段,以实际返回为准。
图像生成
使用 GLM-Image 等系列模型从文本提示生成高质量图像。通过对用户文字描述快速、精准的理解,让 AI 的图像表达更加精确和个性化。
POST
/paas/v4/images/generations
身份验证
请求头 Authorization(string,必填),使用 Bearer 方式:Authorization: Bearer <API_KEY>。
请求体
Content-Type: application/json
参数 类型 必填 说明
model string 是 模型编码,可选如 glm-image、cogview-4-250304、cogview-4、cogview-3-flash,示例:"glm-image"
prompt string 是 文本描述,用于生成图像
size string 否 生成图像尺寸,如 "1280x1280"
响应
业务处理成功。返回生成结果,其中 data 为图片列表,每项含图片链接。
字段 类型 说明
created integer 创建时间,Unix 时间戳(秒)
data array 生成图片列表
data[].url string 图片链接。图片的临时链接有效期为 30 天,请及时转存
content_filter object[] 内容安全相关信息。含 role(assistant/user/history)、level(0~3,0 最严重,3 最轻)
语音转文本
使用 GLM-ASR-2512 模型将音频文件转录为文本,支持多语言和实时流式转录。
POST
/paas/v4/audio/transcriptions
身份验证
请求头 Authorization(string,必填),使用 Bearer 方式:Authorization: Bearer <API_KEY>。
请求体
Content-Type: multipart/form-data
参数 类型 必填 说明
file file 是 需要转录的音频文件。支持格式:.wav / .mp3;规格限制:文件大小 ≤ 25 MB、音频时长 ≤ 30 秒
model string 是 要调用的模型编码,默认 glm-asr-2512
stream boolean 否 是否流式返回,如 false 则一次性返回完整转录结果
响应
业务处理成功。返回转录结果,其中 text 为音频转录的完整内容。
字段 类型 说明
id string 请求 ID
created integer 请求创建时间,以秒为单位的 Unix 时间戳
request_id string 由用户端传递需唯一,或由平台默认生成
model string 模型名称
text string 音频转录的完整内容
文本转语音
使用 GLM-TTS 将文本转换为自然语音,支持多种声音、情感控制和语调调整。
POST
/paas/v4/audio/speech
身份验证
请求头 Authorization(string,必填),使用 Bearer 方式:Authorization: Bearer <API_KEY>。
请求体
Content-Type: application/json
参数 类型 必填 说明
model string 是 要使用的 TTS 模型,默认 glm-tts
input string 是 待转换为语音的文本
voice string 否 音色标识,如 tongtong
response_format string 否 音频输出格式:wav、pcm,默认 pcm。流式生成时仅支持 pcm
volume number 否 音量,默认 1.0,取值范围 (0, 10]
encode_format string 否 仅流式返回时有效,返回编码格式:base64、hex,默认对应音频格式的 base64 字符串
响应
业务处理成功。响应类型为文件(如 audio/wav),返回生成的音频内容。采样率建议设置为 24000。
音色复刻
使用音色复刻技术,基于示例音频生成指定音色、文本内容的语音合成。
POST
/paas/v4/voice/clone
身份验证
请求头 Authorization(string,必填),使用 Bearer 方式:Authorization: Bearer <API_KEY>。
请求体
Content-Type: application/json
参数 类型 必填 说明
model string 是 模型,默认 glm-tts-clone,可选值如 glm-tts-clone
voice_name string 是 自定义音色名称,用于标识复刻后的音色
file_id string 是 示例音频文件 ID,需先上传音频并获取 file_id
text string 是 示例音频对应的文本内容,或待合成语音的文本,用于音色复刻参考
request_id string 否 请求 ID,用于区分每次请求,不传则由平台生成
响应
业务处理成功。返回复刻生成的音色信息及试听文件。
字段 类型 说明
voice string 音色 ID
file_id string 音频试听文件 ID
file_purpose string 文件用途,固定为 voice-clone-output
request_id string 请求 ID
音色列表
获取音色列表,支持按音色名称模糊搜索、按音色类型过滤。
身份验证
请求头 Authorization(string,必填),使用 Bearer 方式:Authorization: Bearer <API_KEY>。
查询参数
参数 类型 必填 说明
voiceName string 否 音色名称,支持模糊搜索;传入中文需进行 URL 编码
voiceType string 否 音色类型:OFFICIAL(官方音色)、PRIVATE(自定义音色)
响应
业务处理成功。返回 voice_list 数组,每项包含以下字段。
字段 类型 说明
voice string 音色 ID
voice_name string 音色名称
voice_type string 音色类型:OFFICIAL 为官方音色,PRIVATE 为自定义音色
download_url string 试听音频的下载链接
create_time string 创建时间
删除音色
删除指定的音色。
POST
/paas/v4/voice/delete
身份验证
请求头 Authorization(string,必填),使用 Bearer 方式:Authorization: Bearer <API_KEY>。
请求体
Content-Type: application/json
参数 类型 必填 说明
voice string 是 要删除的音色 ID,如通过音色列表或音色复刻接口获取的 voice 值
request_id string 否 请求 ID,用于区分每次请求
响应
业务处理成功。返回被删除的音色及删除时间。
字段 类型 说明
voice string 已删除的音色 ID
update_time string 删除时间
文本嵌入
使用 GLM Embedding 系列模型将文本转换为高维向量表示,用于语义相似性和搜索。
身份验证
请求头 Authorization(string,必填),使用 Bearer 方式:Authorization: Bearer <API_KEY>。
请求体
Content-Type: application/json
参数 类型 必填 说明
model string 是 嵌入模型名称,如 embedding-3、embedding-2
input string / array 是 待嵌入的文本或文本数组
dimensions integer 否 输出向量维度,部分模型支持指定
响应
业务处理成功。返回 data 数组,每项包含 embedding 向量;usage 为本次调用的 token 统计。
字段 类型 说明
model string 使用的嵌入模型名称
object string 固定为 "list"
data array 嵌入结果列表
data[].index integer 对应 input 的索引
data[].object string 固定为 "embedding"
data[].embedding number[] 向量化表征数组
usage object 本次模型调用的 token 数量统计
usage.prompt_tokens integer 用户输入的 token 数量
usage.total_tokens integer 总 token 数量
文本重排序
Rerank 用于文本重排序,通过接收用户的查询文本及候选文本列表,使用模型计算候选文本与查询文本的相关性得分并返回分数。适用于智能问答、信息检索等场景。
身份验证
请求头 Authorization(string,必填),使用 Bearer 方式:Authorization: Bearer <API_KEY>。
请求体
Content-Type: application/json
参数 类型 必填 说明
model string 是 要调用的模型编码,默认为 rerank
query string 是 用户的查询文本
documents array 是 需要打分的候选文本列表
top_n integer 否 返回与查询最相关的前 N 条结果
响应
业务处理成功。返回按相关性排序后的结果及得分。
字段 类型 说明
id string 请求 ID
results array 重排序结果列表
results[].document string 候选文本内容
results[].index integer 在原始 documents 中的索引
results[].relevance_score number 与查询的相关性得分
usage object 本次调用的 token 数量统计(prompt_tokens、total_tokens)
文本分词器
Tokenizer 用于将文本切分为模型可识别的 token 并计算数量。它接收用户输入的文本,通过模型进行分词处理,最终返回对应的 token 数量。适用于文本长度评估、模型输入预估、对话上下文截断、费用计算等。
身份验证
请求头 Authorization(string,必填),使用 Bearer 方式:Authorization: Bearer <API_KEY>。
请求体
Content-Type: application/json
参数 类型 必填 说明
model string 是 调用的模型代码,如 glm-4.6、glm-4.6v、glm-4.5、glm-4.5-air、glm-4-long、glm-4-air、glm-4-flash 等
messages array 是 消息列表,每项含 role(user/system/assistant)与 content(支持文本、图片、视频、文件等多模态)
响应
业务处理成功。返回分词统计结果。
字段 类型 说明
id string 请求 ID
usage object token 数量统计
usage.prompt_tokens integer 输入 prompt 的 token 数
usage.video_tokens integer 视频 token 数(如有)
usage.image_tokens integer 图片 token 数(如有)
usage.total_tokens integer 总 token 数
created integer 创建时间,Unix 时间戳
request_id string 用户或平台提交的任务编号
文档解析
使用 GLM-OCR 模型解析文档和图片的布局并提取文本内容。支持图片和 PDF 文档的 OCR 识别,返回详细的布局信息和可视化结果。
POST
/paas/v4/layout_parsing
身份验证
请求头 Authorization(string,必填),使用 Bearer 方式:Authorization: Bearer <API_KEY>。
请求体
Content-Type: application/json
参数 类型 必填 说明
model string 是 模型编码,如 glm-ocr
file string 是 待解析的文档或图片 URL
响应
业务处理成功。返回解析后的文本(Markdown)及布局详情。
字段 类型 说明
id string 任务 ID
created integer 创建时间,Unix 时间戳
model string 使用的模型名称
md_results string 解析结果,Markdown 格式文本
layout_details array 布局详情,每项含 index、label、bbox_2d 等
request_id string 请求 ID
网络搜索
Web Search API 是一个专给大模型用的搜索引擎,在传统搜索引擎网页读取、排序的能力基础上,增强了意图识别能力,返回更适合大模型处理的结果(网页标题、URL、摘要、名称、图标等)。支持意图增强检索、结构化输出和多引擎支持。见网络搜索服务。
身份验证
请求头 Authorization(string,必填),使用 Bearer 方式:Authorization: Bearer <API_KEY>。
请求体
Content-Type: application/json
参数 类型 必填 说明
search_query string 是 需要进行搜索的内容,建议搜索 query 不超过 70 个字符
search_engine string 否 搜索引擎,默认 search_std
search_intent boolean 否 是否启用意图增强,默认 false
count integer 否 返回结果数量,默认 10
search_domain_filter string 否 按域名过滤搜索结果
search_recency_filter string 否 按时间过滤,默认 noLimit
content_size string 否 结果内容篇幅,默认 medium
响应
业务处理成功。返回搜索意图与结果列表。
字段 类型 说明
id string 任务 ID
created integer 创建时间,Unix 时间戳
request_id string 请求 ID
search_intent array 意图识别结果,每项含 query、intent(SEARCH_ALL/SEARCH_NONE/SEARCH_ALWAYS)、keywords
search_result array 搜索结果,每项含 title、content、link、media、icon、refer、publish_date
网页阅读
读取并解析指定 URL 的网页内容,可选择返回格式、支持控制缓存、图片保留与摘要选项等。
身份验证
请求头 Authorization(string,必填),使用 Bearer 方式:Authorization: Bearer <API_KEY>。
请求体
Content-Type: application/json
参数 类型 必填 说明
url string 是 需要抓取的 URL
timeout integer 否 请求超时时间(秒),默认 20
响应
业务处理成功。返回解析后的网页内容与元数据。
字段 类型 说明
id string 任务 ID
created integer 创建时间,Unix 时间戳
request_id string 请求 ID
model string 模型名称
reader_result object 阅读结果,含 content、description、title、url、external(stylesheet)、metadata
reader_result.metadata object 页面元数据:keywords(页面关键词)、viewport(视口设置)、description(元数据描述)、format-detection(格式检测,如 telephone=no)
metadata object 顶层元数据,含 keywords、viewport、description
内容安全
可对文本、图片、音频、视频格式类型的内容进行检测,精准识别涉黄、涉暴、违法违规等风险内容,并输出结构化审核结果(包括内容类型、风险类型及具体风险内容片段),快速定位和处理违规信息。
POST
/paas/v4/moderations
身份验证
请求头 Authorization(string,必填),使用 Bearer 方式:Authorization: Bearer <API_KEY>。
请求体
Content-Type: application/json
参数 类型 必填 说明
model string 是 安全模型,可选 moderation,默认 moderation
input string 是 待审核内容(文本、图片 URL 等)
响应
业务处理成功。返回审核结果列表与用量统计。
字段 类型 说明
id string 任务 ID
created integer 创建时间,Unix 时间戳
request_id string 请求 ID
result_list array 审核结果列表,每项含 content_type(内容类型)、risk_level(PASS/REVIEW/REJECT)、risk_type(风险类型列表)
usage object 用量统计,如 usage.moderation_text.call_count
文件解析(同步)
创建文件解析任务,支持多种文件格式和解析工具。见 文件解析服务。
POST
/paas/v4/files/parser/sync
身份验证
请求头 Authorization(string,必填),使用 Bearer 方式:Authorization: Bearer <API_KEY>。
请求体
Content-Type: multipart/form-data
参数 类型 必填 说明
file file 是 待解析文件
tool_type string 是 使用的解析工具类型,如 prime-sync
file_type string 否 文件类型,如 WPS
响应
业务处理成功。返回解析状态与结果内容或下载链接。
字段 类型 说明
status string 任务状态,如 succeeded
message string 结果状态描述
task_id string 文件解析任务 ID
content string | null 当 format_type=text 时返回的解析文本内容
parsing_result_url string | null 当 format_type=download_link 时返回的结果下载链接
文件解析
创建文件解析任务,支持多种文件格式和解析工具。见 文件解析服务。
POST
/paas/v4/files/parser/create
身份验证
请求头 Authorization(string,必填),使用 Bearer 方式:Authorization: Bearer <API_KEY>。
请求体
Content-Type: multipart/form-data
参数 类型 必填 说明
file file 是 待解析文件
tool_type string 是 使用的解析工具类型:lite、expert、prime
file_type string 否 文件类型。Lite 支持:pdf, docx, doc, xls, xlsx, ppt, pptx, png, jpg, jpeg, csv, txt, md。Expert/Prime 支持:上述格式及 html, bmp, gif, webp, heic, eps, icns, im, pcx, ppm, tiff, xbm, heif, jp2 等
响应
任务创建成功。返回任务 ID,可通过「解析结果」接口查询异步解析结果。
字段 类型 说明
success boolean 是否成功
message string 结果状态描述,如「任务创建成功」
task_id string 文件解析任务 ID,用于后续查询解析结果
解析结果
异步获取文件解析任务的结果,支持返回纯文本或下载链接格式。见 文件解析服务。
GET
/paas/v4/files/parser/result/{taskId}/{format_type}
身份验证
请求头 Authorization(string,必填),使用 Bearer 方式:Authorization: Bearer <API_KEY>。
路径参数
参数 类型 必填 说明
taskId string 是 文件解析任务 ID,由「文件解析」接口返回
format_type string 是 结果返回格式类型,如 text(纯文本)或 download_link(下载链接)
响应
结果获取成功。根据 format_type 返回解析文本或下载链接。
字段 类型 说明
status string 任务状态,如 succeeded
message string 结果状态描述,如「结果获取成功」
task_id string 文件解析任务 ID
content string | null 当 format_type=text 时返回的解析文本内容
parsing_result_url string | null 当 format_type=download_link 时返回的结果下载链接
OCR 服务
上传图片文件,使用指定工具类型进行 OCR(光学字符识别),支持手写体、文字等识别模式。见 OCR 服务。
身份验证
请求头 Authorization(string,必填),使用 Bearer 方式:Authorization: Bearer <API_KEY>。
请求体
Content-Type: multipart/form-data
参数 类型 必填 说明
file file 是 待识别的图片文件(如 JPG、PNG)
tool_type string 是 OCR 识别工具类型,如 hand_write(手写体识别)
language_type string 否 语言类型,如 CHN_ENG(中英混合)
probability boolean 否 是否返回置信度信息
响应
识别成功。返回任务 ID、识别结果列表及可选置信度。
字段 类型 说明
task_id string OCR 任务 ID
message string 状态描述,如「成功」
status string 任务状态,如 succeeded
words_result_num integer 识别出的文本块数量
words_result array 识别结果列表,每项含 location(left、top、width、height)、words(识别文本)、probability(average、variance、min 置信度)
智能体对话
与智能体进行对话交互。支持同步和流式调用,提供智能体的专业能力。见 智能体文档。
身份验证
请求头 Authorization(string,必填),使用 Bearer 方式:Authorization: Bearer <API_KEY>。
请求体
Content-Type: application/json
参数 类型 必填 说明
agent_id string 是 智能体 ID,如 general_translation、slides_glm_agent、cartoon_generator_agent、ai_drawing_agent、receipt_recognition_agent、clothes_recognition_agent、contract_parser_agent、service_check_agent、subtitle_translation_agent、intelligent_education_correction_agent、job_matching_agent、social_translation_agent 等
messages array 是 对话消息列表,每项含 role(user/assistant)、content
custom_variables object 否 智能体扩展参数,如通用翻译的 source_lang、target_lang、glossary
响应
智能体生成的响应内容(纯文本格式)。
字段 类型 说明
id string 请求 ID
agent_id string 智能体 ID
conversation_id string 会话 ID
async_id string 异步任务 ID(如有)
choices array 候选回复,每项含 index、messages(role、content)、finish_reason(stop/length/sensitive/network_error)
usage object Token 使用统计:prompt_tokens、completion_tokens、total_tokens
异步结果
查询智能体异步任务的处理结果和状态。在发起智能体对话并收到 async_id 后,可使用本接口轮询获取异步任务完成后的结果。
POST
/v1/agents/async-result
身份验证
请求头 Authorization(string,必填),使用 Bearer 方式:Authorization: Bearer <API_KEY>。
请求体
Content-Type: application/json
参数 类型 必填 说明
async_id string 是 异步任务 ID,由智能体对话接口在异步模式下返回
agent_id string 否 智能体 ID,与发起对话时使用的 agent_id 一致,便于服务端路由与校验
响应
业务处理成功时返回异步任务结果。若任务尚未完成,status 可能为处理中状态,可稍后再次请求本接口轮询。
字段 类型 说明
agent_id string 智能体 ID
async_id string 异步任务 ID
status string 任务状态,如 success 表示成功,其他值表示处理中或失败
choices array 候选回复列表,每项含 messages(role、content 等)、可选 tag_cn/tag_en 等扩展字段
usage object Token 使用统计,含 total_tokens(消耗总 tokens 数)等
对话历史
查询智能体对话历史。现仅支持 slides_glm_agent 智能体。传入会话 ID 可获取该会话下的历史消息列表。
POST
/v1/agents/conversation
身份验证
请求头 Authorization(string,必填),使用 Bearer 方式:Authorization: Bearer <API_KEY>。
请求体
Content-Type: application/json
参数 类型 必填 说明
agent_id string 是 智能体 ID,当前仅支持 slides_glm_agent
conversation_id string 是 会话 ID,由智能体对话接口返回的 conversation_id
custom_variables object 否 扩展参数,按需传入
响应
成功时返回该会话的历史消息列表,按 choices 中的 message 顺序展示对话内容。
字段 类型 说明
conversation_id string 会话 ID
agent_id string 智能体 ID
choices array 候选列表,每项含 message 数组
choices[].message array 消息列表,每项含 role(如 user、agent)、content
choices[].message[].role string 角色,如 user、agent
choices[].message[].content array 内容块列表。可为文本或富媒体:type 为 file_url 时用 file_url 表示文件下载链接,为 image_url 时用 image_url 表示图片下载链接;可选 tag_cn、tag_en
场景示例
典型业务场景与代码示例
对话场景
调用聊天接口实现多轮对话、系统角色与流式输出,详见 API 文档中的 chat/completions 说明。
嵌入与 RAG
使用嵌入接口获取文本向量,结合知识库实现检索增强生成(RAG)等能力。
编码套餐
套餐类型与计费说明
套餐说明
平台提供按量计费与多种套餐包,具体价格与额度请以控制台「价格」或「财务」页面为准。
更新日志
版本与功能更新记录
版本记录
请关注控制台或站内公告获取最新版本与功能更新信息。
条款与协议
服务条款与隐私政策
服务条款
使用平台服务即表示您同意遵守相关服务条款,请在使用前仔细阅读。
隐私政策
我们重视用户隐私,具体政策以最新公示为准。
常见问题
FAQ
通用问题
如何获取 API Key? 登录后进入控制台 → API Key 管理,创建并妥善保管 Key。
模型列表为空? 请在模型管理中添加要使用的模型,并确保已配置对应服务商。
如何联系支持? 可通过帮助中心或企微助手获取支持。