HyperAI超神经

Anthropic于2025年9月29日发布其最新AI模型Claude Sonnet 4.5，宣布其为“全球最佳AI编码系统”，并强调该模型在构建复杂、可投入生产的应用程序方面实现重大突破。这一发布仅相隔四个月，继上一代Sonnet 4之后，凸显了公司在生成式AI领域快速迭代的竞争力。据Anthropic介绍，Sonnet 4.5在SWE-Bench Verified这一衡量真实软件工程能力的权威基准测试中取得77.2%的准确率，若启用并行测试计算（parallel test-time compute），得分更达82%，显著超越前代Sonnet 4的72.7%。在OSWorld测试中，该模型在真实桌面环境中执行任务的得分提升至61.4%，较Sonnet 4的42.2%大幅领先。在Terminal-Bench命令行操作测试中，其50%的得分也优于GPT-5的43.8%和Gemini 2.5 Pro的41.6%。更关键的是，Sonnet 4.5展现出前所未有的任务持续性——可自主运行超过30小时，是Opus 4模型的四倍以上。在实际测试中，该模型成功独立完成了一个类似Slack的聊天应用开发，涵盖约1.1万行代码、数据库搭建、域名注册与安全审计等全流程操作。科技博主Simon Willison的实测也显示，Sonnet 4.5能完成复杂重构任务，包括将对话历史从线性改为树状结构，并通过全部22项测试，其表现被评价为已超越GPT-5-Codex。为支持这一能力，Anthropic同步推出一系列开发者工具升级。全新发布的Claude Agent SDK，封装了内部构建AI智能体的核心框架，解决长期记忆、多智能体协作与权限管理等难题。Claude Code 2.0版本上线“检查点”功能，允许开发者在AI执行任务时随时回滚，极大提升开发安全性。此外，原生VS Code插件和增强终端工作流也优化了开发体验。在安全方面，Anthropic称Sonnet 4.5是“迄今最对齐的前沿模型”，在减少谄媚、欺骗与权力欲望等不良行为上进步显著，并强化了对提示注入攻击的防御。尽管知名提示工程师Pliny the Liberator仍宣称在短时间内突破安全护栏，但Anthropic表示误报率已降低十倍，仍需持续优化。定价方面，Sonnet 4.5延续前代策略：每百万输入Token 3美元，输出15美元，低于旗舰模型Opus，但高于GPT-5系列。这一策略旨在吸引广泛开发者群体。总体来看，Anthropic正从“模型即服务”向“平台即服务”转型，通过构建完整工具链与开发者生态，强化其在AI编程领域的领先地位。尽管OpenAI与Google等巨头仍在追赶，但Sonnet 4.5在实际生产力转化能力上的突破，已使其成为当前AI编码赛道的标杆。未来竞争将不仅是模型性能的比拼，更是生态构建与开发者黏性的较量。