HyperAI超神经

谷歌DeepMind正式推出其最新AI推理模型Gemini 2.5 Deep Think，标志着AI在复杂问题求解能力上的重大突破。该模型被谷歌称为“迄今为止最先进的AI推理系统”，具备同时探索多个思路、并行分析不同路径的能力，最终选择最优答案，显著提升了逻辑推理与创造性问题解决水平。 Gemini 2.5 Deep Think是谷歌首款公开发布的多智能体（multi-agent）系统。它通过生成多个AI代理并行处理任务，模拟人类“深度思考”的过程。这一机制虽消耗大量计算资源，但能有效提升答案的准确性与深度。谷歌表示，该模型曾用于备战2025年国际数学奥林匹克竞赛（IMO），并成功斩获金牌。该模型不仅在推理能力上表现卓越，还在多项权威基准测试中领先。在衡量AI综合能力的“人类最后的考试”（HLE）中，Gemini 2.5 Deep Think取得34.8%的得分，远超xAI的Grok 4（25.4%）和OpenAI的o3（20.3%）。在竞争激烈的编程测试LiveCodeBench6中，其得分高达87.6%，领先于Grok 4的79%和o3的72%。此外，Gemini 2.5 Deep Think支持自动调用工具，如代码执行与谷歌搜索，并能生成比传统AI更长、更详尽的响应。在网页开发等任务中，其输出内容不仅逻辑清晰，还具备更强的美学与实用性。谷歌还透露，该模型已用于生成艺术图像，展现出在创意领域的潜力。值得注意的是，谷歌正将该模型用于学术研究。他们已向少数数学家和学者开放用于IMO竞赛的专用版本，该版本“需数小时推理”，远超普通AI的秒级响应。谷歌希望借此收集反馈，进一步优化多智能体系统在科研场景中的应用。目前，Gemini 2.5 Deep Think仅对谷歌$250/月的Ultra订阅用户开放，通过Gemini应用上线。未来几周，谷歌还计划通过API向部分开发者和企业测试者提供访问权限，以探索其在专业领域的实际价值。尽管多智能体系统性能强大，但其高昂的运行成本也意味着这类模型短期内仍将被限制在高端订阅服务中。包括xAI、OpenAI和Anthropic在内的多家科技巨头也正加速布局多智能体架构，显示出行业正朝着“深度思考”方向演进。Gemini 2.5 Deep Think的推出，不仅代表谷歌的技术领先，更预示着AI正从“快速响应”迈向“深度推理”的新阶段。