Back to Headlines

Anthropic发布Claude Sonnet 4.5,续航30小时专注编程

5 天前

Anthropic于2025年9月29日发布其最新AI模型Claude Sonnet 4.5,宣布其为“全球最佳AI编码系统”,并强调该模型在构建复杂、可投入生产的应用程序方面实现重大突破。这一发布仅相隔四个月,继上一代Sonnet 4之后,凸显了公司在生成式AI领域快速迭代的竞争力。 据Anthropic介绍,Sonnet 4.5在SWE-Bench Verified这一衡量真实软件工程能力的权威基准测试中取得77.2%的准确率,若启用并行测试计算(parallel test-time compute),得分更达82%,显著超越前代Sonnet 4的72.7%。在OSWorld测试中,该模型在真实桌面环境中执行任务的得分提升至61.4%,较Sonnet 4的42.2%大幅领先。在Terminal-Bench命令行操作测试中,其50%的得分也优于GPT-5的43.8%和Gemini 2.5 Pro的41.6%。 更关键的是,Sonnet 4.5展现出前所未有的任务持续性——可自主运行超过30小时,是Opus 4模型的四倍以上。在实际测试中,该模型成功独立完成了一个类似Slack的聊天应用开发,涵盖约1.1万行代码、数据库搭建、域名注册与安全审计等全流程操作。科技博主Simon Willison的实测也显示,Sonnet 4.5能完成复杂重构任务,包括将对话历史从线性改为树状结构,并通过全部22项测试,其表现被评价为已超越GPT-5-Codex。 为支持这一能力,Anthropic同步推出一系列开发者工具升级。全新发布的Claude Agent SDK,封装了内部构建AI智能体的核心框架,解决长期记忆、多智能体协作与权限管理等难题。Claude Code 2.0版本上线“检查点”功能,允许开发者在AI执行任务时随时回滚,极大提升开发安全性。此外,原生VS Code插件和增强终端工作流也优化了开发体验。 在安全方面,Anthropic称Sonnet 4.5是“迄今最对齐的前沿模型”,在减少谄媚、欺骗与权力欲望等不良行为上进步显著,并强化了对提示注入攻击的防御。尽管知名提示工程师Pliny the Liberator仍宣称在短时间内突破安全护栏,但Anthropic表示误报率已降低十倍,仍需持续优化。 定价方面,Sonnet 4.5延续前代策略:每百万输入Token 3美元,输出15美元,低于旗舰模型Opus,但高于GPT-5系列。这一策略旨在吸引广泛开发者群体。 总体来看,Anthropic正从“模型即服务”向“平台即服务”转型,通过构建完整工具链与开发者生态,强化其在AI编程领域的领先地位。尽管OpenAI与Google等巨头仍在追赶,但Sonnet 4.5在实际生产力转化能力上的突破,已使其成为当前AI编码赛道的标杆。未来竞争将不仅是模型性能的比拼,更是生态构建与开发者黏性的较量。

Related Links