AI Model Selection Guide¶
状态: 📦 已归档
创建日期: 2026-02-10
最后更新: 2026-02-21
📅 日历事件¶
| 事件名称 | 开始 | 结束 | 地点 | 日历 | 备注 |
|---|---|---|---|---|---|
| - | - | - | - | - | - |
日历状态说明: ✅=已加入 / 📄=仅文档
目标¶
基于 2026-02 的官方信息,重新给出四个模型的优缺点与选型策略:
openai/gpt-5.2openai/gpt-5.3-codexanthropic/claude-sonnet-4-6anthropic/claude-opus-4-6
调研范围与证据规则¶
- 仅使用官方文档/官方发布页/官方帮助中心。
- 第三方评测仅作补充线索,不作为本指南结论依据。
- 厂商基准测试默认视为“厂商自报成绩”,落地前需用本地任务复测。
版本基线 (2026-02-21)¶
| 模型 | 定位 | 官方状态 |
|---|---|---|
| GPT-5.2 | OpenAI 通用旗舰推理模型 | API 已可用;gpt-5.2/gpt-5.2-chat-latest/gpt-5.2-pro |
| GPT-5.3-Codex | OpenAI 最新 agentic coding 模型 | Codex surfaces 可用;官方说明 API 正在推进 |
| Claude Sonnet 4.6 | Anthropic 速度/智能平衡主力 | Claude 与 API 已可用;Sonnet 默认推荐型号 |
| Claude Opus 4.6 | Anthropic 最强智能型号 | Claude 与 API 已可用;复杂任务优先推荐 |
四模型优缺点 (基于官方公开信息)¶
| 模型 | 优点 | 缺点/边界 |
|---|---|---|
| GPT-5.2 | 通用能力强,工具调用与长链路任务明显增强;支持 reasoning.effort 与 verbosity;官方强调编码、视觉、长上下文与专业知识工作能力 |
高质量模式成本较高(如 Pro 档);厂商基准强但需本地复测;对纯编码代理场景不一定优于专门 Codex 模型 |
| GPT-5.3-Codex | 定位为最强 agentic coding;官方称较 5.2-Codex 约快 25%;在 SWE-Bench Pro/Terminal-Bench/OSWorld-Verified 等代理编码与计算机操作任务有优势 | 当前重点在 Codex 生态;官方写明 API 仍在推进,接入路径不如通用 API 模型直接;高风险网络/安全任务会触发更严格防护与路由 |
| Claude Sonnet 4.6 | 速度与智能平衡好,价格维持 Sonnet 档;200K 上下文并提供 1M beta;官方强调在编码、computer use、长上下文与指令跟随上显著提升 | 默认高 effort 可能带来额外延迟/成本;部分旧接口用法需迁移(如 prefill 不再支持、参数行为变化) |
| Claude Opus 4.6 | Anthropic 官方最高智能模型;适合复杂推理、长链路代理、多约束任务;200K 上下文 + 1M beta,最高 128K 输出 | 成本和延迟高于 Sonnet;对于中等复杂任务性价比可能不如 Sonnet 4.6;同样存在 4.6 代际迁移注意项 |
快速决策规则¶
- 默认日常主力:
claude-sonnet-4-6(速度/质量/成本平衡最稳)。 - 高价值复杂任务(重大决策、复杂代码审查、深度推演):
claude-opus-4-6。 - 通用跨模态与 OpenAI 工具链一体化任务:
gpt-5.2。 - 长链路代理式工程、跨文件重构、终端驱动编码:
gpt-5.3-codex。 - 关键任务采用双模型交叉复核(建议 Claude + OpenAI 各 1 次)。
场景选型矩阵¶
| 场景 | 首选 | 备选 | 备注 |
|---|---|---|---|
| 日常问答、文档整理、一般编码 | Claude Sonnet 4.6 | GPT-5.2 | Sonnet 4.6 通常更均衡 |
| 高难度架构设计/复杂推理 | Claude Opus 4.6 | GPT-5.2 Pro | 先深推理,再交叉审查 |
| 代理式编码与自动化修复 | GPT-5.3-Codex | Claude Opus 4.6 | Codex 在 agentic coding 更有针对性 |
| 多工具链、函数调用、结构化输出 | GPT-5.2 | Claude Sonnet 4.6 | 两者均可,按现有平台生态选 |
| 大规模长上下文汇总与推演 | Claude Opus 4.6 | Claude Sonnet 4.6 | 两者均有 1M beta 路径,Opus 上限更高 |
成本与延迟视角 (官方公开价)¶
| 模型 | 价格信号 | 结论 |
|---|---|---|
| GPT-5.2 | OpenAI 公布 gpt-5.2 约 $1.75 / $14 (input/output, 每百万 tokens) |
通用旗舰里偏“可用但不低价” |
| Claude Sonnet 4.6 | Anthropic 公布 $3 / $15 (每百万 tokens) | 作为默认生产模型较稳 |
| Claude Opus 4.6 | Anthropic 公布 $5 / $25 (每百万 tokens) | 为质量付费,适合关键任务 |
| GPT-5.3-Codex | 官方主打 Codex 订阅/产品侧能力,API 定价信息需以正式发布为准 | 预算评估需结合实际接入形态 |
迁移与风险提示¶
- Claude 4.6 迁移需重点检查:
- assistant prefill 方案(4.6 上会报错)
- tool 参数转义解析(应使用标准 JSON 解析)
- 旧 beta header 与旧参数迁移(如
output_format到output_config.format)
- OpenAI 侧建议优先走 Responses API 并明确控制
reasoning/verbosity,避免把旧模型提示词原样搬迁。 - 所有基准成绩都不能直接替代业务验收,必须做任务集回放(accuracy、latency、cost 三维一起看)。
建议的落地流程¶
- 先按任务分级(普通/复杂/关键)。
- 每级固定主模型与备模型(防止临场随意切换)。
- 每周抽样复盘 5-10 个真实任务:记录模型、耗时、成本、返工率、满意度。
- 连续 3 次同类任务不达标就升级/切换模型并更新本指南。
参考来源 (Official)¶
OpenAI¶
- Introducing GPT-5.2 (2025-12-11): https://openai.com/index/introducing-gpt-5-2/
- Using GPT-5.2 (OpenAI API Docs): https://developers.openai.com/api/docs/guides/latest-model/
- Introducing GPT-5.3-Codex (2026-02-05): https://openai.com/index/introducing-gpt-5-3-codex/
- Model Release Notes (Help Center): https://help.openai.com/en/articles/9624314-model-release-notes
Anthropic¶
- Models overview (Claude API Docs): https://platform.claude.com/docs/en/about-claude/models/overview
- What's new in Claude 4.6: https://platform.claude.com/docs/en/about-claude/models/whats-new-claude-4-6
- Introducing Claude Opus 4.6 (2026-02-05): https://www.anthropic.com/news/claude-opus-4-6
- Introducing Claude Sonnet 4.6 (2026-02-17): https://www.anthropic.com/news/claude-sonnet-4-6
- Migration guide (Claude 4.6): https://docs.anthropic.com/en/docs/about-claude/models/migrating-to-claude-4
注: 本文中的性能描述优先引用官方原文。涉及 benchmark 的结论,默认视为厂商公布结果,生产决策请配合自有任务集验证。