HyperAI
HyperAI
主区域
首页
GPU
控制台
文档
价格
Pulse
报道
资源
论文
教程
数据集
百科
基准测试
SOTA
大语言模型(LLM)
GPU 排行榜
社区
活动
开源
实用工具
搜索
关于
服务条款
隐私政策
中文
HyperAI
HyperAI
Toggle Sidebar
⌘
K
Command Palette
Search for a command to run...
登录
HyperAI
论文
论文
每日更新的前沿人工智能研究论文,帮助您紧跟最新的人工智能趋势
HyperAI
HyperAI
主区域
首页
GPU
控制台
文档
价格
Pulse
报道
资源
论文
教程
数据集
百科
基准测试
SOTA
大语言模型(LLM)
GPU 排行榜
社区
活动
开源
实用工具
搜索
关于
服务条款
隐私政策
中文
HyperAI
HyperAI
Toggle Sidebar
⌘
K
Command Palette
Search for a command to run...
登录
HyperAI
论文
论文
每日更新的前沿人工智能研究论文,帮助您紧跟最新的人工智能趋势
使用协作式多Agent LLM架构从SOAP病历中自动检测临床问题
LLM
Agent
Yeawon Lee, Xiaoyang Wang, Christopher C. Yang
SmolDocling:一种超紧凑的视觉-语言模型,用于端到端多模态文档转换
文档理解
多模态
Ahmed Nassar, Andres Marafioti, Matteo Omenetti, et al.
VA-MoE:面向增量天气预报的变量自适应专家混合模型
AI for Science
Transformer
Hao Chen, Han Tao, Guo Song, et al.
华佗GPT-Vision,面向大规模注入医学视觉知识到多模态LLM
视觉问答
多模态
Junying Chen, Ruyi Ouyang, Anningzhe Gao, et al.
输入重构如何提升复杂动态环境中工具使用准确性?基于τ-bench 的研究
Agent
LLM
Venkatesh Mishra, Amir Saeidi, Satyam Raj, et al.
ALLaM 34B 的 UI 级评估:通过 HUMAIN Chat 测量以阿拉伯语为中心的 LLM
LLM
自然语言处理
Omer Nacar
从反应式到认知式:面向具身Agent的类脑空间智能
具身智能
推理
Shouwei Ruan, Liyuan Wang, Caixin Kang, et al.
无标签遗漏:适用于所有监督模式的统一表面缺陷检测模型
计算机视觉
目标检测
Blaž Rolih, Matic Fučka, Danijel Skočaj
T2R-bench:一个从真实工业表格生成文章级报告的基准测试
基准
LLM
Jie Zhang, Changzai Pan, Kaiwen Wei, et al.
PVPO:面向智能体推理的预估价值策略优化
强化学习
模型训练
Wenfeng Feng, Penghong Zhao, Guochao Jiang, et al.
UQ:在未解问题上评估语言模型
数据集
推理
Fan Nie, Ken Ziyu Liu, Zihao Wang, et al.
CARJAN:基于Agent的交通场景生成与仿真方法——AJAN
自动驾驶
Agent
Leonard Frank Neis, Andre Antakli, Matthias Klusch
TiKMiX:在语言模型预训练中引入数据影响的动态混合机制
LLM
模型训练
Yifan Wang, Binbin Liu, Fengze Liu, et al.
TalkVid:一个大规模多样化音频驱动说话头合成数据集
统一多模态
数据集
Shunian Chen, Hejin Huang, Yexin Liu, et al.
Droplet3D:来自视频的常识先验促进3D生成
3D 生成
视频理解
Xiaochuan Li, Guoguang Du, Runze Zhang, et al.
A.S.E:面向AI生成代码安全性的仓库级基准测试
代码生成
基准
Keke Lian, Bin Wang, Lei Zhang, et al.
EmbodiedOneVision:面向通用机器人控制的交织视觉-文本-动作预训练
Agent
具身智能
Delin Qu, Haoming Song, Qizhi Chen, et al.
R-4B:通过双模式退火与强化学习激励多模态大模型的通用自动思考能力
多模态
推理
Jie Jiang, Qi Yang, Bolin Ni, et al.
激发小规模语言模型的创意写作:基于LLM的评判与多智能体精炼奖励
监督式微调
偏好
Xiaolong Wei, Bo Lu, Xingyu Zhang, et al.
TMUAD:通过文本记忆库增强统一异常检测模型的逻辑能力
计算机视觉
图像理解
Jiawei Liu, Jiahe Hou, Wei Wang, et al.
思维链动态分析:主动引导还是不忠实的事后合理化?
LLM
监督式微调
Samuel Lewis-Lim, Xingwei Tan, Zhixue Zhao, et al.
AWorld:面向智能体AI训练配方的编排
Agent
基准
Chengyue Yu, Siyuan Lu, Chenyi Zhuang, et al.
MCP-Bench:通过MCP服务器对复杂现实世界任务中使用工具的LLM Agent进行基准测试
基准
Agent
Zhenting Wang, Qi Chang, Hemani Patel, et al.
rStar2-Agent:代理式推理技术报告
Agent
强化学习
Ning Shang, Yifei Liu, Yi Zhu, et al.
Pref-GRPO:基于成对偏好奖励的GRPO用于稳定文本到图像强化学习
文生图
偏好
Yibin Wang, Zhimin Li, Yuhang Zang, et al.
MobileCLIP2:提升多模态强化训练
多模态
图像描述
Fartash Faghri, Pavan Kumar Anasosalu Vasu, Cem Koc, et al.
AI-AI 审美协作:显式符号学意识与涌现语法发展
人工智能
自然语言处理
Nicanor I. Moldovan
凝视心灵:用于rPPG与健康生物标志物估计的多视角视频数据集
计算机视觉
视频理解
Konstantin Egorov, Stepan Botman, Pavel Blinov, et al.
预测下一个标记的顺序可提升语言建模性能
Transformer
模型训练
Zayd M. K. Zuhri, Erland Hilman Fuadi, Alham Fikri Aji
MIDAS:通过实时自回归视频生成实现的多模态交互式数字人合成
文生视频
统一多模态
Ming Chen, Liyuan Cui, Wenyuan Zhang, et al.
离散扩散VLA:将离散扩散引入视觉-语言-动作策略中的动作解码
扩散模型
Transformer
Zhixuan Liang, Yizhuo Li, Tianshuo Yang, et al.
通过推理分解的自奖励视觉-语言模型
视觉问答
推理
Zongxia Li, Wenhao Yu, Chengsong Huang, et al.
1
30
31
32
33
34
35
36
49
使用协作式多Agent LLM架构从SOAP病历中自动检测临床问题
LLM
Agent
Yeawon Lee, Xiaoyang Wang, Christopher C. Yang
SmolDocling:一种超紧凑的视觉-语言模型,用于端到端多模态文档转换
文档理解
多模态
Ahmed Nassar, Andres Marafioti, Matteo Omenetti, et al.
VA-MoE:面向增量天气预报的变量自适应专家混合模型
AI for Science
Transformer
Hao Chen, Han Tao, Guo Song, et al.
华佗GPT-Vision,面向大规模注入医学视觉知识到多模态LLM
视觉问答
多模态
Junying Chen, Ruyi Ouyang, Anningzhe Gao, et al.
输入重构如何提升复杂动态环境中工具使用准确性?基于τ-bench 的研究
Agent
LLM
Venkatesh Mishra, Amir Saeidi, Satyam Raj, et al.
ALLaM 34B 的 UI 级评估:通过 HUMAIN Chat 测量以阿拉伯语为中心的 LLM
LLM
自然语言处理
Omer Nacar
从反应式到认知式:面向具身Agent的类脑空间智能
具身智能
推理
Shouwei Ruan, Liyuan Wang, Caixin Kang, et al.
无标签遗漏:适用于所有监督模式的统一表面缺陷检测模型
计算机视觉
目标检测
Blaž Rolih, Matic Fučka, Danijel Skočaj
T2R-bench:一个从真实工业表格生成文章级报告的基准测试
基准
LLM
Jie Zhang, Changzai Pan, Kaiwen Wei, et al.
PVPO:面向智能体推理的预估价值策略优化
强化学习
模型训练
Wenfeng Feng, Penghong Zhao, Guochao Jiang, et al.
UQ:在未解问题上评估语言模型
数据集
推理
Fan Nie, Ken Ziyu Liu, Zihao Wang, et al.
CARJAN:基于Agent的交通场景生成与仿真方法——AJAN
自动驾驶
Agent
Leonard Frank Neis, Andre Antakli, Matthias Klusch
TiKMiX:在语言模型预训练中引入数据影响的动态混合机制
LLM
模型训练
Yifan Wang, Binbin Liu, Fengze Liu, et al.
TalkVid:一个大规模多样化音频驱动说话头合成数据集
统一多模态
数据集
Shunian Chen, Hejin Huang, Yexin Liu, et al.
Droplet3D:来自视频的常识先验促进3D生成
3D 生成
视频理解
Xiaochuan Li, Guoguang Du, Runze Zhang, et al.
A.S.E:面向AI生成代码安全性的仓库级基准测试
代码生成
基准
Keke Lian, Bin Wang, Lei Zhang, et al.
EmbodiedOneVision:面向通用机器人控制的交织视觉-文本-动作预训练
Agent
具身智能
Delin Qu, Haoming Song, Qizhi Chen, et al.
R-4B:通过双模式退火与强化学习激励多模态大模型的通用自动思考能力
多模态
推理
Jie Jiang, Qi Yang, Bolin Ni, et al.
激发小规模语言模型的创意写作:基于LLM的评判与多智能体精炼奖励
监督式微调
偏好
Xiaolong Wei, Bo Lu, Xingyu Zhang, et al.
TMUAD:通过文本记忆库增强统一异常检测模型的逻辑能力
计算机视觉
图像理解
Jiawei Liu, Jiahe Hou, Wei Wang, et al.
思维链动态分析:主动引导还是不忠实的事后合理化?
LLM
监督式微调
Samuel Lewis-Lim, Xingwei Tan, Zhixue Zhao, et al.
AWorld:面向智能体AI训练配方的编排
Agent
基准
Chengyue Yu, Siyuan Lu, Chenyi Zhuang, et al.
MCP-Bench:通过MCP服务器对复杂现实世界任务中使用工具的LLM Agent进行基准测试
基准
Agent
Zhenting Wang, Qi Chang, Hemani Patel, et al.
rStar2-Agent:代理式推理技术报告
Agent
强化学习
Ning Shang, Yifei Liu, Yi Zhu, et al.
Pref-GRPO:基于成对偏好奖励的GRPO用于稳定文本到图像强化学习
文生图
偏好
Yibin Wang, Zhimin Li, Yuhang Zang, et al.
MobileCLIP2:提升多模态强化训练
多模态
图像描述
Fartash Faghri, Pavan Kumar Anasosalu Vasu, Cem Koc, et al.
AI-AI 审美协作:显式符号学意识与涌现语法发展
人工智能
自然语言处理
Nicanor I. Moldovan
凝视心灵:用于rPPG与健康生物标志物估计的多视角视频数据集
计算机视觉
视频理解
Konstantin Egorov, Stepan Botman, Pavel Blinov, et al.
预测下一个标记的顺序可提升语言建模性能
Transformer
模型训练
Zayd M. K. Zuhri, Erland Hilman Fuadi, Alham Fikri Aji
MIDAS:通过实时自回归视频生成实现的多模态交互式数字人合成
文生视频
统一多模态
Ming Chen, Liyuan Cui, Wenyuan Zhang, et al.
离散扩散VLA:将离散扩散引入视觉-语言-动作策略中的动作解码
扩散模型
Transformer
Zhixuan Liang, Yizhuo Li, Tianshuo Yang, et al.
通过推理分解的自奖励视觉-语言模型
视觉问答
推理
Zongxia Li, Wenhao Yu, Chengsong Huang, et al.
1
30
31
32
33
34
35
36
49