Back to Headlines

OpenAI提出全球规模计算新原则:推动AI发展与责任并重

5 天前

OpenAI首席硬件负责人理查德·霍(Richard Ho)在近日举行的AI Infra峰会上,系统阐述了构建全球规模计算基础设施的必要性与核心原则。他指出,若生成式AI要真正实现普及,就必须突破地域与资源限制,构建真正意义上的全球级算力网络——其规模远超上世纪末互联网泡沫和21世纪10年代大数据时代的数据中心集群。 霍强调,当前AI模型正经历指数级增长,训练所需的算力已远超摩尔定律的发展速度。他展示了一张关键图表,显示从AlexNet(2012年)到GPT-4,再到未来GPT-5和o3等模型,其参数量与训练所需浮点运算总量呈持续爆炸式上升。GPT-4已达到约1.5万亿参数,训练耗时计算量高达10²⁷量级,而GPT-5预计将在2025年达到10²⁷浮点运算,逼近MMLU测试的理论极限(接近100%得分),使该测试逐渐失去衡量意义。 霍指出,未来AI系统将不再只是“对话式”模型,而是进入“代理式工作流”(agentic workflow)时代。这意味着AI代理将长期运行、自主执行复杂任务,甚至在用户不主动输入时持续工作。这要求基础设施具备“有状态计算”能力,即持久化内存支持、低延迟跨节点通信和实时协同机制。一旦某个代理发现关键信息,必须能即时同步给其他代理,否则将严重影响整体任务结果。 他特别强调,当前AI系统在计算、网络与存储之间存在巨大张力。尤其在高并发、长周期的代理任务中,尾延迟(tail latency)成为决定系统性能的关键瓶颈。为此,霍提出必须在硬件层面构建全新的安全与可靠性机制:包括在芯片中嵌入实时“紧急关机”开关、通过硅级遥测检测异常计算与内存行为、建立可信执行环境(secure enclaves)以保障模型对齐(alignment)。 他呼吁建立面向代理架构的新一代基础设施标准,包括将可观测性(observability)作为硬件固有功能,而非仅限于调试工具;同时推动光学互连等新技术的可靠性验证。他还呼吁芯片制造、封装、云服务商和超大规模厂商加强协作,实现关键组件的双源供应,提升系统韧性。 尽管未透露OpenAI自研芯片“Titan”或Stargate项目的具体细节,但霍的演讲清晰勾勒出其未来愿景:构建一个可扩展、安全、低延迟、能支持长期智能代理运行的全球算力体系,这将是下一代AI基础设施的核心挑战与方向。

Related Links