|
2 | 2 |
|
3 | 3 | ### 2.4.1 主流模型概览 |
4 | 4 |
|
5 | | -模型参数变化非常快。以下内容是 **能力分层示意**(更新快照:2026-05-16),用于帮助理解选型思路,而非实时参数公告。请以各厂商官网为准。 |
| 5 | +模型参数变化非常快。以下内容是 **能力分层示意**(官方核验日期:2026-05-17),用于帮助理解选型思路,而非实时参数公告。生产决策必须以各厂商官网模型页、价格页和实际账号可用区为准。 |
6 | 6 |
|
7 | | -| 模型系列 | 常见上下文窗口(官方可能随版本调整) | 典型优势 | 典型取舍 | |
| 7 | +| 模型系列 | 官方快照中的代表能力 | 典型优势 | 典型取舍 | |
8 | 8 | |------|--------|------------|------------| |
9 | | -| OpenAI GPT 系列 | 128K–1M(GPT-5 系列 最高 1M) | 通用推理与工具生态成熟 | 成本与延迟需按档位权衡 | |
10 | | -| — GPT-5(2025年8月) | 400K | 强大推理能力 | 需按版本评估 | |
11 | | -| — GPT-5.1-5.4(2025–2026年迭代) | 128K–1M(5.4 达到 1M) | 性能优化与稳定性 | 版本差异需关注 | |
12 | | -| — GPT-5.5(2026年4月) | 1M | 最新旗舰,编码与深度研究能力提升 | $5/$30;相比 5.4 更智能但 token 单价翻倍 | |
13 | | -| Anthropic Claude 系列 | 200K–1M | 长文理解、代码与写作稳定性 | 峰值吞吐与成本需按场景评估 | |
14 | | -| — Claude Opus 4.7(2026年4月) | 1M | 强化推理与 SWE、视觉精度提升 | 基础价 $5/$25;无长上下文溢价;新 tokenizer 同文本 token 数约 1.0–1.35× | |
15 | | -| — Claude Opus 4.6(2026年2月) | 1M | 最强推理与分析能力 | 基础价 $5/$25;无长上下文溢价 | |
16 | | -| — Claude Sonnet 4.6(2026年2月) | 1M | 高性能与成本均衡 | 基础价 $3/$15;无长上下文溢价 | |
17 | | -| — Claude Haiku 4.5(2025年10月) | 200K | 轻量快速推理 | $1/$5 per 1M tokens | |
18 | | -| Google Gemini 系列 | 1M | 多模态与长上下文任务 | 生态与部署模式需结合现有栈 | |
19 | | -| — Gemini 3 Pro(2025年11月) | 1M | 多模态与推理 | 需结合现有栈评估 | |
20 | | -| — Gemini 3.1 Pro(2026年2月) | 1M | 优化推理与工具集成 | 需结合现有栈评估 | |
21 | | -| Meta Llama 系列 | 128K–10M(开源) | 私有化与可定制能力 | 需要较强工程集成能力 | |
22 | | -| — Llama 4 Scout(2025年4月) | 10M | 超长上下文 | 开源,需自行部署 | |
23 | | -| — Llama 4 Maverick(2025年4月) | 1M | 高能力推理 | 开源,需自行部署 | |
24 | | -| Qwen 系列 | 32K–1M | 中文与多语言表现、开源适配 | 需结合部署环境做压测 | |
25 | | -| DeepSeek 系列 | 64K–128K | 推理性价比与工程落地速度 | 需关注版本变更与兼容策略 | |
26 | | - |
27 | | -*注:生产决策请以厂商官网模型页和账单页为准,并在方案文档中记录“查询日期 + 具体版本 + 价格页链接”。上下文窗口、价格、工具能力和区域可用性属于高波动信息,应在每次上线或迁移前重新核验。* |
| 9 | +| OpenAI GPT 系列 | 官方模型页显示 `gpt-5.5`、`gpt-5.4` 为 1M 上下文,`gpt-5.4-mini` 为 400K;均通过 Responses API 和 SDK 使用 | 通用推理、代码与工具生态成熟 | 价格按短/长上下文、缓存、区域处理和服务层级变化 | |
| 10 | +| Anthropic Claude 系列 | 官方文档显示 Claude Opus 4.7、Opus 4.6、Sonnet 4.6 为 1M 上下文,Haiku 4.5 为 200K;Opus 4.7 tokenizer 对同一文本可能多用至多 35% tokens | 长文理解、代码与写作稳定性 | 峰值吞吐、区域路由、缓存和批处理价格需按场景评估 | |
| 11 | +| Google Gemini 系列 | Gemini API 模型页同时列出稳定、预览和已弃用模型;页面显示 Gemini 3 Pro Preview 已关闭,应以具体模型页的 token limits 为准 | 多模态与长上下文任务 | 预览/弃用状态变化快,部署前需确认可用模型字符串 | |
| 12 | +| Meta Llama 系列 | Meta 2025-04-05 官方博客称 Llama 4 Scout 支持 10M 输入上下文;实际托管服务可能给出更低上限 | 私有化与可定制能力 | 需要自行评估部署、显存、量化和服务商限制 | |
| 13 | +| Qwen / DeepSeek 等开源或开放 API 系列 | 上下文窗口、价格和工具能力随具体模型、服务商和部署方式变化 | 中文、多语言或推理性价比突出 | 需结合官方文档、模型卡和本地压测确认 | |
| 14 | + |
| 15 | +*注:价格、上下文窗口、工具能力、区域可用性和弃用状态都属于高波动信息。方案文档应记录“查询日期 + 具体模型 ID + 模型页/价格页链接”,并在上线或迁移前重新核验。* |
28 | 16 |
|
29 | 17 |  |
30 | 18 |
|
|
57 | 45 | 上下文长度直接影响成本: |
58 | 46 | - 更长的上下文意味着更高的 Token 费用 |
59 | 47 | - 需要权衡上下文丰富度与成本效益 |
60 | | -- 考虑是否有批量折扣或缓存机制 |
| 48 | +- 考虑是否有批量折扣、缓存机制、区域处理溢价或长上下文溢价 |
61 | 49 |
|
62 | 50 | **延迟要求** |
63 | 51 |
|
|
124 | 112 | ### 2.4.6 官方信息入口(用于参数核验) |
125 | 113 |
|
126 | 114 | - [OpenAI Models](https://platform.openai.com/docs/models) |
| 115 | +- [OpenAI Pricing](https://platform.openai.com/docs/pricing) |
127 | 116 | - [Anthropic Claude Models](https://docs.anthropic.com/en/docs/about-claude/models) |
| 117 | +- [Anthropic Pricing](https://docs.anthropic.com/en/docs/about-claude/pricing) |
128 | 118 | - [Google Gemini Models](https://ai.google.dev/gemini-api/docs/models) |
129 | 119 | - [Meta Llama](https://www.llama.com/) |
130 | 120 | - [Qwen](https://qwenlm.github.io/) |
|
0 commit comments