NVIDIA Cosmos Reason:后训练优化赋能机器人实现更智能决策
NVIDIA在2025年GTC大会上正式发布全新推理型视觉语言模型Cosmos Reason,旨在显著提升机器人与物理AI系统的智能表现。该模型为开源且完全可定制,专为物理世界中的AI应用设计,能够结合先验知识、物理规律与常识进行多模态推理,实现对真实环境的理解与决策。 Cosmos Reason接收视频输入与文本指令,首先通过视觉编码器和专用投影器将视频转化为tokens,再与文本提示融合,输入核心模型。模型采用大语言模型模块与多种技术结合,支持分步思考,生成逻辑清晰、详尽的响应。 该模型通过监督微调(SFT)与强化学习(RL)双重训练,打通了多模态感知与现实决策之间的鸿沟。在物理AI任务上微调后,模型性能提升超过10%;结合强化学习,再提升5%,在机器人与自动驾驶关键基准测试中平均得分达到65.7,表现优异。 应用场景涵盖机器人导航、交互任务、自动驾驶决策、工业自动化等。开发者可通过Hugging Face获取模型权重,从GitHub下载推理脚本与后训练资源。示例代码展示了如何加载模型、处理视频与文本输入,并以“思考—回答”格式输出结果。 针对特定任务,可通过RoboVQA等数据集进行监督微调,提升模型在机器人视觉问答中的表现。开发人员可基于提供的数据集类与训练脚本,构建自定义训练流程。 Cosmos Reason针对NVIDIA GPU深度优化,支持从边缘设备到云端的全栈部署,适用于NVIDIA DGX Spark、RTX Pro 6000、AI H100 Tensor Core GPU及Blackwell GB200 NVL72等平台,尤其在NVIDIA DGX Cloud上表现卓越。 开发者可访问NVIDIA官方文档获取详细教程、技术实现与实际案例。同时,建议关注NVIDIA官方新闻,加入其社交媒体矩阵与Cosmos Reason社区论坛,持续获取最新动态与技术支持。