大模型 API 提供文本生成、多轮对话、嵌入(Embedding)等能力,是构建 AI 应用的主要入口。接入时需关注鉴权方式、流式输出、限流与成本。本文介绍 OpenAI、通义千问、文心一言等主流 API 的对比、接入要点、错误处理与成本控制,帮助开发者快速接入并稳定运行。
一、主流大模型 API 对比
国内外均有提供 HTTP API 的大模型服务,计费多按 token(输入+输出)或按次。选型需考虑地域、合规、模型能力与价格。
| 平台 | 模型示例 | 计费 | 国内可用 | 说明 |
|---|---|---|---|---|
| OpenAI | GPT-4、GPT-3.5-turbo | 按 token | 需代理 | 能力领先,需合规与网络 |
| 阿里通义 | qwen-max、qwen-turbo | 按 token | 是 | 中文友好,多模态 |
| 百度文心 | ernie-bot、ernie-speed | 按 token | 是 | 国内生态完善 |
| 智谱 GLM | glm-4、glm-3-turbo | 按 token | 是 | 长文本与代码 |
| DeepSeek | deepseek-chat | 按 token | 是 | 高性价比 |
数据来源:各平台官方定价与文档(综合整理)。
二、API 接入要点
接入大模型 API 时,鉴权、请求格式、流式输出与错误处理是通用要点。
2.1 鉴权
多数平台使用 API Key 鉴权,放在 HTTP Header(如 Authorization: Bearer <key>)或 Query 参数。Key 应从环境变量或密钥服务读取,不硬编码、不入库、不提交到代码仓库。
2.2 请求与响应格式
请求体通常为 JSON,包含 model、messages(角色与内容)、temperature、max_tokens 等。响应为 JSON 或流式 chunk。流式输出(SSE 或 chunked)可提升首 token 体验,需在客户端按 chunk 拼接或解析 EventSource。
2.3 错误处理
429 表示限流,应指数退避重试;5xx 为服务端错误,可有限重试。超时设置建议 30–60 秒(流式可更长)。重试时注意幂等性,避免重复计费。
| 要点 | 建议 |
|---|---|
| 鉴权 | API Key 从环境变量读取,不硬编码 |
| 流式 | 前端用 EventSource 或 fetch + ReadableStream 解析 |
| 限流 | 指数退避重试、队列削峰、降级策略 |
| 成本 | 监控 token 用量、设置预算告警、简单任务用小模型 |
| 超时 | 合理设置连接与读超时,流式可适当放宽 |
三、成本控制
大模型按 token 计费,输入与输出分别计价。控制成本的方式:① 设每日/每月预算与告警;② 简单任务选用小模型或 turbo 系列;③ 相似请求可做短时缓存(注意合规);④ 控制 max_tokens、精简 system/user 内容。
四、Prompt 与 RAG
接入 API 后,Prompt 质量直接影响效果。可参考本站《Prompt 工程最佳实践》;若需基于私有知识库回答,可结合《RAG 检索增强生成》做检索增强。
五、选型要素权重
基于实际接入经验,以下要素的影响程度(相对权重,满分 100):
说明:权重基于大模型 API 接入项目实践归纳,仅供参考。
六、小结
大模型 API 接入需重视鉴权、流式、限流与成本。统一封装可兼容多平台、便于切换模型与降级。若需 Agent 与工具调用能力,可阅读《AI Agent 应用与实践》;若需微调以定制风格或领域,可参考《大模型微调入门与实践》。