HyperAI超神经

OpenAI近日发布报告，声称其最新AI模型已能在部分实际工作场景中达到与人类专家相当的水平。为回应企业AI投资回报率低的质疑，OpenAI推出名为GDPval的新基准测试体系，旨在评估AI在44个真实职业任务中的表现，涵盖美国GDP贡献最大的九大行业，如金融、制造、房地产和政府等。 GDPval以“国内生产总值”（GDP）为概念基础，聚焦高薪、高价值的“知识型工作”。OpenAI邀请平均拥有14年经验的专业人士设计真实任务，例如起草法律文书、绘制工程图纸、撰写护理计划或处理客户支持问题，并提供人类完成的参考范例。每项任务均经专家盲评，AI输出与人类成果对比，评定为“更优”“相当”或“较差”。测试结果显示，当前顶尖AI模型已接近人类专业水平。在220项核心任务中，Claude Opus 4.1表现最佳，胜率与平局率达47.6%，尤其在文档排版、幻灯片设计等美学方面突出。GPT-5高以38.8%的胜平率位居第二，擅长精准执行指令与计算。GPT-4o表现最弱，仅为12.4%。 AI在客服、仓储、销售管理、软件开发等岗位任务中表现优异，胜率超70%；但在工业工程、药剂师、财务经理、视频编辑等需要高度专业判断的任务中则明显落后，最低得分仅17%。 OpenAI强调，AI完成这些任务的速度比人类快约100倍，成本低100倍。但公司同时指出，AI尚无法完全替代人类，因为多数工作远不止一系列可标准化的任务。GDPval的核心意义在于：AI可承担重复性工作，让人类腾出时间专注于创造性、判断性任务。这一发现为AI在职场的实际价值提供了实证依据，也回应了当前“AI产出空有形式、缺乏实质”的批评。

相关链接

相关链接

相关链接

视觉真实之外：清华 WorldArena 全新评测体系揭示具身世界模型的能力鸿沟

视觉真实之外：清华 WorldArena 全新评测体系揭示具身世界模型的能力鸿沟

Command Palette

ChatGPT已能胜任部分工作，表现媲美人类

相关链接

Command Palette

ChatGPT已能胜任部分工作，表现媲美人类

相关链接

Command Palette

ChatGPT已能胜任部分工作，表现媲美人类

相关链接

视觉真实之外：清华 WorldArena 全新评测体系揭示具身世界模型的能力鸿沟

视觉真实之外：清华 WorldArena 全新评测体系揭示具身世界模型的能力鸿沟