ChatGPT已能胜任部分工作,表现媲美人类
4 天前
OpenAI近日发布报告,声称其最新AI模型已能在部分实际工作场景中达到与人类专家相当的水平。为回应企业AI投资回报率低的质疑,OpenAI推出名为GDPval的新基准测试体系,旨在评估AI在44个真实职业任务中的表现,涵盖美国GDP贡献最大的九大行业,如金融、制造、房地产和政府等。 GDPval以“国内生产总值”(GDP)为概念基础,聚焦高薪、高价值的“知识型工作”。OpenAI邀请平均拥有14年经验的专业人士设计真实任务,例如起草法律文书、绘制工程图纸、撰写护理计划或处理客户支持问题,并提供人类完成的参考范例。每项任务均经专家盲评,AI输出与人类成果对比,评定为“更优”“相当”或“较差”。 测试结果显示,当前顶尖AI模型已接近人类专业水平。在220项核心任务中,Claude Opus 4.1表现最佳,胜率与平局率达47.6%,尤其在文档排版、幻灯片设计等美学方面突出。GPT-5高以38.8%的胜平率位居第二,擅长精准执行指令与计算。GPT-4o表现最弱,仅为12.4%。 AI在客服、仓储、销售管理、软件开发等岗位任务中表现优异,胜率超70%;但在工业工程、药剂师、财务经理、视频编辑等需要高度专业判断的任务中则明显落后,最低得分仅17%。 OpenAI强调,AI完成这些任务的速度比人类快约100倍,成本低100倍。但公司同时指出,AI尚无法完全替代人类,因为多数工作远不止一系列可标准化的任务。GDPval的核心意义在于:AI可承担重复性工作,让人类腾出时间专注于创造性、判断性任务。这一发现为AI在职场的实际价值提供了实证依据,也回应了当前“AI产出空有形式、缺乏实质”的批评。