HyperAI

主区域

GPU

控制台
文档
价格

Pulse

报道

资源

论文
教程
数据集
百科

基准测试

SOTA
大语言模型（LLM）
GPU 排行榜

社区

活动

实用工具

关于服务条款隐私政策
中文

Command Palette

Search for a command to run...

HyperAI
论文

论文

每日更新的前沿人工智能研究论文,帮助您紧跟最新的人工智能趋势

学习、理解、实践，与社区一起构建人工智能的未来

关于

关于我们数据集支持

产品

报道教程数据集百科

链接

TVM 中文 Apache TVM

© HyperAI

津ICP备17010941号-1

京公网安备11010502038810号

GitHub Discord X (formerly Twitter)Bilibili

HyperAI

主区域

GPU

控制台
文档
价格

Pulse

报道

资源

论文
教程
数据集
百科

基准测试

SOTA
大语言模型（LLM）
GPU 排行榜

社区

活动

实用工具

关于服务条款隐私政策
中文

Command Palette

Search for a command to run...

HyperAI
论文

论文

每日更新的前沿人工智能研究论文,帮助您紧跟最新的人工智能趋势

学习、理解、实践，与社区一起构建人工智能的未来

关于

关于我们数据集支持

产品

报道教程数据集百科

链接

TVM 中文 Apache TVM

© HyperAI

津ICP备17010941号-1

京公网安备11010502038810号

GitHub Discord X (formerly Twitter)Bilibili

Nemotron 3 Nano：面向Agent推理的开源、高效混合专家Mamba-Transformer模型

Nemotron 3 Nano：面向Agent推理的开源、高效混合专家Mamba-Transformer模型

监督式微调

基于追踪的结构：视频生成中的结构保持性运动知识蒸馏

基于追踪的结构：视频生成中的结构保持性运动知识蒸馏

Yang Fei, George Stoica, Jingyuan Liu, et al.

基于MetaCanvas的MLLM-Diffusion信息传递探索

基于MetaCanvas的MLLM-Diffusion信息传递探索

Han Lin, Xichen Pan, Ziqi Huang, et al.

PersonaLive！用于直播的生动肖像图像动画

PersonaLive！用于直播的生动肖像图像动画

Zhiyuan Li, Chi-Man Pun, Chen Fang, et al.

V-RGBX：基于内在属性精确控制的视频编辑

V-RGBX：基于内在属性精确控制的视频编辑

Ye Fang, Tong Wu, Valentin Deschaintre, et al.

SVG-T2I：在无需变分自编码器的情况下扩展文本到图像的潜在扩散模型

SVG-T2I：在无需变分自编码器的情况下扩展文本到图像的潜在扩散模型

Minglei Shi, Haolin Wang, Borui Zhang, et al.

DentalGPT：激励牙科领域的多模态复杂推理

DentalGPT：激励牙科领域的多模态复杂推理

多模态表征

Zhenyang Cai, Jiaming Zhang, Junjie Zhao, et al.

SSRB：对大规模异构半结构化数据的直接自然语言查询

SSRB：对大规模异构半结构化数据的直接自然语言查询

检索增强生成

自然语言处理

Xin Zhang, Mingxin Li, Yanzhao Zhang, et al.

MUVR：具有多层级视觉对应关系的多模态未剪辑视频检索基准

MUVR：具有多层级视觉对应关系的多模态未剪辑视频检索基准

多模态表征

Yue Feng, Jinwei Hu, Qijia Lu, et al.

在Veo世界模拟器中评估Gemini Robotics策略

在Veo世界模拟器中评估Gemini Robotics策略

机器人技术

Coline Devin, Yilun Du, Debidatta Dwibedi, et al.

MotionEdit：面向运动中心图像编辑的基准测试与学习

MotionEdit：面向运动中心图像编辑的基准测试与学习

Yixin Wan, Lei Ke, Wenhao Yu, et al.

通过复杂度增强强化学习实现奥运级几何大语言模型智能体

通过复杂度增强强化学习实现奥运级几何大语言模型智能体

Haiteng Zhao, Junhao Shen, Yiming Zhang, et al.

OPV：基于结果的流程验证器，用于高效长链推理验证

OPV：基于结果的流程验证器，用于高效长链推理验证

Zijian Wu, Lingkai Kong, Wenwei Zhang, et al.

文本到3D生成中的强化学习：我们准备好了吗？一项渐进式探究

文本到3D生成中的强化学习：我们准备好了吗？一项渐进式探究

Yiwen Tang, Zoey Guo, Kaixin Zhu, et al.

面向奥数级数学问题求解的长时程推理Agent

面向奥数级数学问题求解的长时程推理Agent

Songyang Gao, Yuzhe Gu, Zijian Wu, et al.

T-pro 2.0：一种高效的俄语混合推理LLM与实验平台

T-pro 2.0：一种高效的俄语混合推理LLM与实验平台

Dmitrii Stoianov, Danil Taranets, Olga Tsymboi, et al.

AutoGLM：用于GUI的自主基础Agent

AutoGLM：用于GUI的自主基础Agent

Xiao Liu, Bo Qin, Dongzhu Liang, et al.

OpenGU：图去学习的综合基准

OpenGU：图去学习的综合基准

Bowen Fan, Yuming Ai, Xunkai Li, et al.

预训练、中段训练与强化学习在推理语言模型中的相互作用

预训练、中段训练与强化学习在推理语言模型中的相互作用

Charlie Zhang, Graham Neubig, Xiang Yue

DeepCode：开放的智能体编码

DeepCode：开放的智能体编码

检索增强生成

Zongwei Li, Zhonghang Li, Zirui Guo, et al.

InfiniteVL：融合线性与稀疏注意力机制以实现高效、无限输入的视觉-语言模型

InfiniteVL：融合线性与稀疏注意力机制以实现高效、无限输入的视觉-语言模型

统一多模态

Hongyuan Tao, Bencheng Liao, Shaoyu Chen, et al.

OmniPSD：基于扩散Transformer的分层PSD生成

OmniPSD：基于扩散Transformer的分层PSD生成

Cheng Liu, Yiren Song, Haofan Wang, et al.

HiF-VLA：通过运动表征实现的回望、洞察与前瞻，用于视觉-语言-动作模型

HiF-VLA：通过运动表征实现的回望、洞察与前瞻，用于视觉-语言-动作模型

统一多模态

机器人技术

Minghui Lin, Pengxiang Ding, Shu Wang, et al.

套利：通过优势感知推测实现高效推理

套利：通过优势感知推测实现高效推理

Monishwaran Maheswaran, Rishabh Tiwari, Yuezhou Hu, et al.

通过概念提示绑定从图像和视频中组合概念

通过概念提示绑定从图像和视频中组合概念

统一多模态

Xianghao Kong, Zeyu Zhang, Yuwei Guo, et al.

StereoWorld：面向几何感知的单目到立体视频生成

StereoWorld：面向几何感知的单目到立体视频生成

Ke Xing, Longfei Li, Yuyang Yin, et al.

Urania：面向AI使用的差分隐私洞察

Urania：面向AI使用的差分隐私洞察

Daogao Liu, Edith Cohen, Badih Ghazi, et al.

通过忏悔训练LLM实现诚实性

通过忏悔训练LLM实现诚实性

监督式微调

Manas Joglekar, Jeremy Chen, Gabriel Wu, et al.

生产环境中的Agent评估

生产环境中的Agent评估

Melissa Z. Pan, Negar Arabzadeh, Riccardo Cogo, et al.

PolyMath：多语言情境下的数学推理评估

PolyMath：多语言情境下的数学推理评估

Yiming Wang, Pei Zhang, Jialong Tang, et al.

ThreadWeaver：面向语言模型高效并行推理的自适应线程调度

ThreadWeaver：面向语言模型高效并行推理的自适应线程调度

Long Lian, Sida Wang, Felix Juefei-Xu, et al.

SPARK：面向无参考强化学习的分步过程感知奖励

SPARK：面向无参考强化学习的分步过程感知奖励

监督式微调

Salman Rahman, Sruthi Gorantla, Arpit Gupta, et al.

Nemotron 3 Nano：面向Agent推理的开源、高效混合专家Mamba-Transformer模型

Nemotron 3 Nano：面向Agent推理的开源、高效混合专家Mamba-Transformer模型

监督式微调

基于追踪的结构：视频生成中的结构保持性运动知识蒸馏

基于追踪的结构：视频生成中的结构保持性运动知识蒸馏

Yang Fei, George Stoica, Jingyuan Liu, et al.

基于MetaCanvas的MLLM-Diffusion信息传递探索

基于MetaCanvas的MLLM-Diffusion信息传递探索

Han Lin, Xichen Pan, Ziqi Huang, et al.

PersonaLive！用于直播的生动肖像图像动画

PersonaLive！用于直播的生动肖像图像动画

Zhiyuan Li, Chi-Man Pun, Chen Fang, et al.

V-RGBX：基于内在属性精确控制的视频编辑

V-RGBX：基于内在属性精确控制的视频编辑

Ye Fang, Tong Wu, Valentin Deschaintre, et al.

SVG-T2I：在无需变分自编码器的情况下扩展文本到图像的潜在扩散模型

SVG-T2I：在无需变分自编码器的情况下扩展文本到图像的潜在扩散模型

Minglei Shi, Haolin Wang, Borui Zhang, et al.

DentalGPT：激励牙科领域的多模态复杂推理

DentalGPT：激励牙科领域的多模态复杂推理

多模态表征

Zhenyang Cai, Jiaming Zhang, Junjie Zhao, et al.

SSRB：对大规模异构半结构化数据的直接自然语言查询

SSRB：对大规模异构半结构化数据的直接自然语言查询

检索增强生成

自然语言处理

Xin Zhang, Mingxin Li, Yanzhao Zhang, et al.

MUVR：具有多层级视觉对应关系的多模态未剪辑视频检索基准

MUVR：具有多层级视觉对应关系的多模态未剪辑视频检索基准

多模态表征

Yue Feng, Jinwei Hu, Qijia Lu, et al.

在Veo世界模拟器中评估Gemini Robotics策略

在Veo世界模拟器中评估Gemini Robotics策略

机器人技术

Coline Devin, Yilun Du, Debidatta Dwibedi, et al.

MotionEdit：面向运动中心图像编辑的基准测试与学习

MotionEdit：面向运动中心图像编辑的基准测试与学习

Yixin Wan, Lei Ke, Wenhao Yu, et al.

通过复杂度增强强化学习实现奥运级几何大语言模型智能体

通过复杂度增强强化学习实现奥运级几何大语言模型智能体

Haiteng Zhao, Junhao Shen, Yiming Zhang, et al.

OPV：基于结果的流程验证器，用于高效长链推理验证

OPV：基于结果的流程验证器，用于高效长链推理验证

Zijian Wu, Lingkai Kong, Wenwei Zhang, et al.

文本到3D生成中的强化学习：我们准备好了吗？一项渐进式探究

文本到3D生成中的强化学习：我们准备好了吗？一项渐进式探究

Yiwen Tang, Zoey Guo, Kaixin Zhu, et al.

面向奥数级数学问题求解的长时程推理Agent

面向奥数级数学问题求解的长时程推理Agent

Songyang Gao, Yuzhe Gu, Zijian Wu, et al.

T-pro 2.0：一种高效的俄语混合推理LLM与实验平台

T-pro 2.0：一种高效的俄语混合推理LLM与实验平台

Dmitrii Stoianov, Danil Taranets, Olga Tsymboi, et al.

AutoGLM：用于GUI的自主基础Agent

AutoGLM：用于GUI的自主基础Agent

Xiao Liu, Bo Qin, Dongzhu Liang, et al.

OpenGU：图去学习的综合基准

OpenGU：图去学习的综合基准

Bowen Fan, Yuming Ai, Xunkai Li, et al.

预训练、中段训练与强化学习在推理语言模型中的相互作用

预训练、中段训练与强化学习在推理语言模型中的相互作用

Charlie Zhang, Graham Neubig, Xiang Yue

DeepCode：开放的智能体编码

DeepCode：开放的智能体编码

检索增强生成

Zongwei Li, Zhonghang Li, Zirui Guo, et al.

InfiniteVL：融合线性与稀疏注意力机制以实现高效、无限输入的视觉-语言模型

InfiniteVL：融合线性与稀疏注意力机制以实现高效、无限输入的视觉-语言模型

统一多模态

Hongyuan Tao, Bencheng Liao, Shaoyu Chen, et al.

OmniPSD：基于扩散Transformer的分层PSD生成

OmniPSD：基于扩散Transformer的分层PSD生成

Cheng Liu, Yiren Song, Haofan Wang, et al.

HiF-VLA：通过运动表征实现的回望、洞察与前瞻，用于视觉-语言-动作模型

HiF-VLA：通过运动表征实现的回望、洞察与前瞻，用于视觉-语言-动作模型

统一多模态

机器人技术

Minghui Lin, Pengxiang Ding, Shu Wang, et al.

套利：通过优势感知推测实现高效推理

套利：通过优势感知推测实现高效推理

Monishwaran Maheswaran, Rishabh Tiwari, Yuezhou Hu, et al.

通过概念提示绑定从图像和视频中组合概念

通过概念提示绑定从图像和视频中组合概念

统一多模态

Xianghao Kong, Zeyu Zhang, Yuwei Guo, et al.

StereoWorld：面向几何感知的单目到立体视频生成

StereoWorld：面向几何感知的单目到立体视频生成

Ke Xing, Longfei Li, Yuyang Yin, et al.

Urania：面向AI使用的差分隐私洞察

Urania：面向AI使用的差分隐私洞察

Daogao Liu, Edith Cohen, Badih Ghazi, et al.

通过忏悔训练LLM实现诚实性

通过忏悔训练LLM实现诚实性

监督式微调

Manas Joglekar, Jeremy Chen, Gabriel Wu, et al.

生产环境中的Agent评估

生产环境中的Agent评估

Melissa Z. Pan, Negar Arabzadeh, Riccardo Cogo, et al.

PolyMath：多语言情境下的数学推理评估

PolyMath：多语言情境下的数学推理评估

Yiming Wang, Pei Zhang, Jialong Tang, et al.

ThreadWeaver：面向语言模型高效并行推理的自适应线程调度

ThreadWeaver：面向语言模型高效并行推理的自适应线程调度

Long Lian, Sida Wang, Felix Juefei-Xu, et al.

SPARK：面向无参考强化学习的分步过程感知奖励

SPARK：面向无参考强化学习的分步过程感知奖励

监督式微调

Salman Rahman, Sruthi Gorantla, Arpit Gupta, et al.