HyperAI

主区域

GPU

控制台
文档
价格

Pulse

报道

资源

论文
教程
数据集
百科

基准测试

SOTA
大语言模型（LLM）
GPU 排行榜

社区

活动

实用工具

关于服务条款隐私政策
中文

Command Palette

Search for a command to run...

HyperAI
论文

论文

每日更新的前沿人工智能研究论文,帮助您紧跟最新的人工智能趋势

学习、理解、实践，与社区一起构建人工智能的未来

关于

关于我们数据集支持

产品

报道教程数据集百科

链接

TVM 中文 Apache TVM

© HyperAI

津ICP备17010941号-1

京公网安备11010502038810号

GitHub Discord X (formerly Twitter)Bilibili

HyperAI

主区域

GPU

控制台
文档
价格

Pulse

报道

资源

论文
教程
数据集
百科

基准测试

SOTA
大语言模型（LLM）
GPU 排行榜

社区

活动

实用工具

关于服务条款隐私政策
中文

Command Palette

Search for a command to run...

HyperAI
论文

论文

每日更新的前沿人工智能研究论文,帮助您紧跟最新的人工智能趋势

学习、理解、实践，与社区一起构建人工智能的未来

关于

关于我们数据集支持

产品

报道教程数据集百科

链接

TVM 中文 Apache TVM

© HyperAI

津ICP备17010941号-1

京公网安备11010502038810号

GitHub Discord X (formerly Twitter)Bilibili

使用协作式多Agent LLM架构从SOAP病历中自动检测临床问题

使用协作式多Agent LLM架构从SOAP病历中自动检测临床问题

Yeawon Lee, Xiaoyang Wang, Christopher C. Yang

SmolDocling：一种超紧凑的视觉-语言模型，用于端到端多模态文档转换

SmolDocling：一种超紧凑的视觉-语言模型，用于端到端多模态文档转换

Ahmed Nassar, Andres Marafioti, Matteo Omenetti, et al.

VA-MoE：面向增量天气预报的变量自适应专家混合模型

VA-MoE：面向增量天气预报的变量自适应专家混合模型

Hao Chen, Han Tao, Guo Song, et al.

华佗GPT-Vision，面向大规模注入医学视觉知识到多模态LLM

华佗GPT-Vision，面向大规模注入医学视觉知识到多模态LLM

Junying Chen, Ruyi Ouyang, Anningzhe Gao, et al.

输入重构如何提升复杂动态环境中工具使用准确性？基于τ-bench 的研究

输入重构如何提升复杂动态环境中工具使用准确性？基于τ-bench 的研究

Venkatesh Mishra, Amir Saeidi, Satyam Raj, et al.

ALLaM 34B 的 UI 级评估：通过 HUMAIN Chat 测量以阿拉伯语为中心的 LLM

ALLaM 34B 的 UI 级评估：通过 HUMAIN Chat 测量以阿拉伯语为中心的 LLM

自然语言处理

从反应式到认知式：面向具身Agent的类脑空间智能

从反应式到认知式：面向具身Agent的类脑空间智能

Shouwei Ruan, Liyuan Wang, Caixin Kang, et al.

无标签遗漏：适用于所有监督模式的统一表面缺陷检测模型

无标签遗漏：适用于所有监督模式的统一表面缺陷检测模型

计算机视觉

Blaž Rolih, Matic Fučka, Danijel Skočaj

T2R-bench：一个从真实工业表格生成文章级报告的基准测试

T2R-bench：一个从真实工业表格生成文章级报告的基准测试

Jie Zhang, Changzai Pan, Kaiwen Wei, et al.

PVPO：面向智能体推理的预估价值策略优化

PVPO：面向智能体推理的预估价值策略优化

Wenfeng Feng, Penghong Zhao, Guochao Jiang, et al.

UQ：在未解问题上评估语言模型

UQ：在未解问题上评估语言模型

Fan Nie, Ken Ziyu Liu, Zihao Wang, et al.

CARJAN：基于Agent的交通场景生成与仿真方法——AJAN

CARJAN：基于Agent的交通场景生成与仿真方法——AJAN

Leonard Frank Neis, Andre Antakli, Matthias Klusch

TiKMiX：在语言模型预训练中引入数据影响的动态混合机制

TiKMiX：在语言模型预训练中引入数据影响的动态混合机制

Yifan Wang, Binbin Liu, Fengze Liu, et al.

TalkVid：一个大规模多样化音频驱动说话头合成数据集

TalkVid：一个大规模多样化音频驱动说话头合成数据集

统一多模态

Shunian Chen, Hejin Huang, Yexin Liu, et al.

Droplet3D：来自视频的常识先验促进3D生成

Droplet3D：来自视频的常识先验促进3D生成

Xiaochuan Li, Guoguang Du, Runze Zhang, et al.

A.S.E：面向AI生成代码安全性的仓库级基准测试

A.S.E：面向AI生成代码安全性的仓库级基准测试

Keke Lian, Bin Wang, Lei Zhang, et al.

EmbodiedOneVision：面向通用机器人控制的交织视觉-文本-动作预训练

EmbodiedOneVision：面向通用机器人控制的交织视觉-文本-动作预训练

Delin Qu, Haoming Song, Qizhi Chen, et al.

R-4B：通过双模式退火与强化学习激励多模态大模型的通用自动思考能力

R-4B：通过双模式退火与强化学习激励多模态大模型的通用自动思考能力

Jie Jiang, Qi Yang, Bolin Ni, et al.

激发小规模语言模型的创意写作：基于LLM的评判与多智能体精炼奖励

激发小规模语言模型的创意写作：基于LLM的评判与多智能体精炼奖励

监督式微调

Xiaolong Wei, Bo Lu, Xingyu Zhang, et al.

TMUAD：通过文本记忆库增强统一异常检测模型的逻辑能力

TMUAD：通过文本记忆库增强统一异常检测模型的逻辑能力

计算机视觉

Jiawei Liu, Jiahe Hou, Wei Wang, et al.

思维链动态分析：主动引导还是不忠实的事后合理化？

思维链动态分析：主动引导还是不忠实的事后合理化？

监督式微调

Samuel Lewis-Lim, Xingwei Tan, Zhixue Zhao, et al.

AWorld：面向智能体AI训练配方的编排

AWorld：面向智能体AI训练配方的编排

Chengyue Yu, Siyuan Lu, Chenyi Zhuang, et al.

MCP-Bench：通过MCP服务器对复杂现实世界任务中使用工具的LLM Agent进行基准测试

MCP-Bench：通过MCP服务器对复杂现实世界任务中使用工具的LLM Agent进行基准测试

Zhenting Wang, Qi Chang, Hemani Patel, et al.

rStar2-Agent：代理式推理技术报告

rStar2-Agent：代理式推理技术报告

Ning Shang, Yifei Liu, Yi Zhu, et al.

Pref-GRPO：基于成对偏好奖励的GRPO用于稳定文本到图像强化学习

Pref-GRPO：基于成对偏好奖励的GRPO用于稳定文本到图像强化学习

Yibin Wang, Zhimin Li, Yuhang Zang, et al.

MobileCLIP2：提升多模态强化训练

MobileCLIP2：提升多模态强化训练

Fartash Faghri, Pavan Kumar Anasosalu Vasu, Cem Koc, et al.

AI-AI 审美协作：显式符号学意识与涌现语法发展

AI-AI 审美协作：显式符号学意识与涌现语法发展

自然语言处理

Nicanor I. Moldovan

凝视心灵：用于rPPG与健康生物标志物估计的多视角视频数据集

凝视心灵：用于rPPG与健康生物标志物估计的多视角视频数据集

计算机视觉

Konstantin Egorov, Stepan Botman, Pavel Blinov, et al.

预测下一个标记的顺序可提升语言建模性能

预测下一个标记的顺序可提升语言建模性能

Zayd M. K. Zuhri, Erland Hilman Fuadi, Alham Fikri Aji

MIDAS：通过实时自回归视频生成实现的多模态交互式数字人合成

MIDAS：通过实时自回归视频生成实现的多模态交互式数字人合成

统一多模态

Ming Chen, Liyuan Cui, Wenyuan Zhang, et al.

离散扩散VLA：将离散扩散引入视觉-语言-动作策略中的动作解码

离散扩散VLA：将离散扩散引入视觉-语言-动作策略中的动作解码

Zhixuan Liang, Yizhuo Li, Tianshuo Yang, et al.

通过推理分解的自奖励视觉-语言模型

通过推理分解的自奖励视觉-语言模型

Zongxia Li, Wenhao Yu, Chengsong Huang, et al.

使用协作式多Agent LLM架构从SOAP病历中自动检测临床问题

使用协作式多Agent LLM架构从SOAP病历中自动检测临床问题

Yeawon Lee, Xiaoyang Wang, Christopher C. Yang

SmolDocling：一种超紧凑的视觉-语言模型，用于端到端多模态文档转换

SmolDocling：一种超紧凑的视觉-语言模型，用于端到端多模态文档转换

Ahmed Nassar, Andres Marafioti, Matteo Omenetti, et al.

VA-MoE：面向增量天气预报的变量自适应专家混合模型

VA-MoE：面向增量天气预报的变量自适应专家混合模型

Hao Chen, Han Tao, Guo Song, et al.

华佗GPT-Vision，面向大规模注入医学视觉知识到多模态LLM

华佗GPT-Vision，面向大规模注入医学视觉知识到多模态LLM

Junying Chen, Ruyi Ouyang, Anningzhe Gao, et al.

输入重构如何提升复杂动态环境中工具使用准确性？基于τ-bench 的研究

输入重构如何提升复杂动态环境中工具使用准确性？基于τ-bench 的研究

Venkatesh Mishra, Amir Saeidi, Satyam Raj, et al.

ALLaM 34B 的 UI 级评估：通过 HUMAIN Chat 测量以阿拉伯语为中心的 LLM

ALLaM 34B 的 UI 级评估：通过 HUMAIN Chat 测量以阿拉伯语为中心的 LLM

自然语言处理

从反应式到认知式：面向具身Agent的类脑空间智能

从反应式到认知式：面向具身Agent的类脑空间智能

Shouwei Ruan, Liyuan Wang, Caixin Kang, et al.

无标签遗漏：适用于所有监督模式的统一表面缺陷检测模型

无标签遗漏：适用于所有监督模式的统一表面缺陷检测模型

计算机视觉

Blaž Rolih, Matic Fučka, Danijel Skočaj

T2R-bench：一个从真实工业表格生成文章级报告的基准测试

T2R-bench：一个从真实工业表格生成文章级报告的基准测试

Jie Zhang, Changzai Pan, Kaiwen Wei, et al.

PVPO：面向智能体推理的预估价值策略优化

PVPO：面向智能体推理的预估价值策略优化

Wenfeng Feng, Penghong Zhao, Guochao Jiang, et al.

UQ：在未解问题上评估语言模型

UQ：在未解问题上评估语言模型

Fan Nie, Ken Ziyu Liu, Zihao Wang, et al.

CARJAN：基于Agent的交通场景生成与仿真方法——AJAN

CARJAN：基于Agent的交通场景生成与仿真方法——AJAN

Leonard Frank Neis, Andre Antakli, Matthias Klusch

TiKMiX：在语言模型预训练中引入数据影响的动态混合机制

TiKMiX：在语言模型预训练中引入数据影响的动态混合机制

Yifan Wang, Binbin Liu, Fengze Liu, et al.

TalkVid：一个大规模多样化音频驱动说话头合成数据集

TalkVid：一个大规模多样化音频驱动说话头合成数据集

统一多模态

Shunian Chen, Hejin Huang, Yexin Liu, et al.

Droplet3D：来自视频的常识先验促进3D生成

Droplet3D：来自视频的常识先验促进3D生成

Xiaochuan Li, Guoguang Du, Runze Zhang, et al.

A.S.E：面向AI生成代码安全性的仓库级基准测试

A.S.E：面向AI生成代码安全性的仓库级基准测试

Keke Lian, Bin Wang, Lei Zhang, et al.

EmbodiedOneVision：面向通用机器人控制的交织视觉-文本-动作预训练

EmbodiedOneVision：面向通用机器人控制的交织视觉-文本-动作预训练

Delin Qu, Haoming Song, Qizhi Chen, et al.

R-4B：通过双模式退火与强化学习激励多模态大模型的通用自动思考能力

R-4B：通过双模式退火与强化学习激励多模态大模型的通用自动思考能力

Jie Jiang, Qi Yang, Bolin Ni, et al.

激发小规模语言模型的创意写作：基于LLM的评判与多智能体精炼奖励

激发小规模语言模型的创意写作：基于LLM的评判与多智能体精炼奖励

监督式微调

Xiaolong Wei, Bo Lu, Xingyu Zhang, et al.

TMUAD：通过文本记忆库增强统一异常检测模型的逻辑能力

TMUAD：通过文本记忆库增强统一异常检测模型的逻辑能力

计算机视觉

Jiawei Liu, Jiahe Hou, Wei Wang, et al.

思维链动态分析：主动引导还是不忠实的事后合理化？

思维链动态分析：主动引导还是不忠实的事后合理化？

监督式微调

Samuel Lewis-Lim, Xingwei Tan, Zhixue Zhao, et al.

AWorld：面向智能体AI训练配方的编排

AWorld：面向智能体AI训练配方的编排

Chengyue Yu, Siyuan Lu, Chenyi Zhuang, et al.

MCP-Bench：通过MCP服务器对复杂现实世界任务中使用工具的LLM Agent进行基准测试

MCP-Bench：通过MCP服务器对复杂现实世界任务中使用工具的LLM Agent进行基准测试

Zhenting Wang, Qi Chang, Hemani Patel, et al.

rStar2-Agent：代理式推理技术报告

rStar2-Agent：代理式推理技术报告

Ning Shang, Yifei Liu, Yi Zhu, et al.

Pref-GRPO：基于成对偏好奖励的GRPO用于稳定文本到图像强化学习

Pref-GRPO：基于成对偏好奖励的GRPO用于稳定文本到图像强化学习

Yibin Wang, Zhimin Li, Yuhang Zang, et al.

MobileCLIP2：提升多模态强化训练

MobileCLIP2：提升多模态强化训练

Fartash Faghri, Pavan Kumar Anasosalu Vasu, Cem Koc, et al.

AI-AI 审美协作：显式符号学意识与涌现语法发展

AI-AI 审美协作：显式符号学意识与涌现语法发展

自然语言处理

Nicanor I. Moldovan

凝视心灵：用于rPPG与健康生物标志物估计的多视角视频数据集

凝视心灵：用于rPPG与健康生物标志物估计的多视角视频数据集

计算机视觉

Konstantin Egorov, Stepan Botman, Pavel Blinov, et al.

预测下一个标记的顺序可提升语言建模性能

预测下一个标记的顺序可提升语言建模性能

Zayd M. K. Zuhri, Erland Hilman Fuadi, Alham Fikri Aji

MIDAS：通过实时自回归视频生成实现的多模态交互式数字人合成

MIDAS：通过实时自回归视频生成实现的多模态交互式数字人合成

统一多模态

Ming Chen, Liyuan Cui, Wenyuan Zhang, et al.

离散扩散VLA：将离散扩散引入视觉-语言-动作策略中的动作解码

离散扩散VLA：将离散扩散引入视觉-语言-动作策略中的动作解码

Zhixuan Liang, Yizhuo Li, Tianshuo Yang, et al.

通过推理分解的自奖励视觉-语言模型

通过推理分解的自奖励视觉-语言模型

Zongxia Li, Wenhao Yu, Chengsong Huang, et al.