最新论文
每日更新的前沿 AI 研究论文,助您把握人工智能最新动向

OTC:通过强化学习实现最优工具调用
Hongru Wang, Cheng Qian, Wanjun Zhong, et al.
发布日期: 4/23/2025

THOUGHTTERMINATOR:推理模型中超思考的基准测试、校准与缓解措施
Xiao Pu, Michael Saxon, Wenyue Hua, et al.
发布日期: 4/23/2025

SphereDiff:通过球形潜在表示无调优生成全向全景图像和视频
Minho Park, Taewoong Kang, Jooyeol Yun, et al.
发布日期: 4/23/2025

TTRL:测试时强化学习
Yuxin Zuo, Kaiyan Zhang, Shang Qu, et al.
发布日期: 4/23/2025

X-团队:多轮越狱攻击与自适应多代理防御
Salman Rahman, Liwei Jiang, James Shiffer, et al.
发布日期: 4/23/2025

从2,000多个多语言基准测试中汲取的苦涩教训
Minghao Wu, Weixuan Wang, Sinuo Liu, et al.
发布日期: 4/23/2025

UFO2:桌面代理操作系统
Chaoyun Zhang, He Huang, Chiming Ni, et al.
发布日期: 4/23/2025

ToolRL:奖励即是工具学习所需的一切
Cheng Qian, Emre Can Acikgoz, Qi He, et al.
发布日期: 4/23/2025

FlowReasoner:强化查询级元代理
Hongcheng Gao, Yue Liu, Yufei He, et al.
发布日期: 4/23/2025

鹰2.5:提升前沿视觉-语言模型的长上下文后训练
Guo Chen, Zhiqi Li, Shihao Wang, et al.
发布日期: 4/23/2025