GitHub项目Danau5tin/terminal-bench-rl发布GRPO训练代码 支持32块H100 GPU扩展 Qwen3智能体登顶Stanford终端任务榜单
4 days ago
GitHub 上名为 Danau5tin/terminal-bench-rl 的项目近日引发关注,其核心是通过强化学习(RL)训练长时序终端代理,以完成复杂命令行和编程任务。该项目基于加州大学伯克利分校 Sky Lab 开发的 rLLM 框架,扩展了定制化的环境和基础设施,用于终端代理的训练。 项目中,作者使用 Qwen3-32B 模型进行训练,通过 32 张 H100 GPU 的计算资源,成功在 Stanford 的 TerminalBench 基准测试中获得 13.75% 的得分,位列 Qwen3 代理中的第一名。尽管训练成本高昂,作者也尝试在更小规模的硬件上进行训练,包括 2 张 A100 GPU 的单节点训练。 为了提高训练效果,作者设计了多种工具和系统提示,帮助代理更高效地执行任务。同时,项目引入了基于 LLM 的奖励机制,其中 65% 的权重来自答案验证,35% 来自 LLM 作为评判者,确保训练过程的准确性和稳定性。 项目还支持动态切换 LLM 判官,以应对不同训练场景下的性能和资源限制。此外,训练采用了 Group Relative Policy Optimization(GRPO)方法,适合结构化推理任务。 数据集包含 331 个任务,涵盖从简单到极端复杂的各类终端和编程场景。每个任务都有 Docker 环境配置、测试代码和评分权重,确保训练数据的高质量和可验证性。 作者表示,虽然目前无法完成完整的高算力训练,但代码和数据集已经准备就绪,并支持从开发环境到生产环境的多种配置。项目未来计划包括课程学习、数据集扩展和智能数据筛选,以进一步提升训练效果。