HyperAI

主区域

GPU

控制台
文档
价格

Pulse

报道

资源

论文
教程
数据集
百科

基准测试

SOTA
大语言模型（LLM）
GPU 排行榜

社区

活动

实用工具

关于服务条款隐私政策
中文

Command Palette

Search for a command to run...

HyperAI
论文

论文

每日更新的前沿人工智能研究论文,帮助您紧跟最新的人工智能趋势

学习、理解、实践，与社区一起构建人工智能的未来

关于

关于我们数据集支持

产品

报道教程数据集百科

链接

TVM 中文 Apache TVM

© HyperAI

津ICP备17010941号-1

京公网安备11010502038810号

GitHub Discord X (formerly Twitter)Bilibili

HyperAI

主区域

GPU

控制台
文档
价格

Pulse

报道

资源

论文
教程
数据集
百科

基准测试

SOTA
大语言模型（LLM）
GPU 排行榜

社区

活动

实用工具

关于服务条款隐私政策
中文

Command Palette

Search for a command to run...

HyperAI
论文

论文

每日更新的前沿人工智能研究论文,帮助您紧跟最新的人工智能趋势

学习、理解、实践，与社区一起构建人工智能的未来

关于

关于我们数据集支持

产品

报道教程数据集百科

链接

TVM 中文 Apache TVM

© HyperAI

津ICP备17010941号-1

京公网安备11010502038810号

GitHub Discord X (formerly Twitter)Bilibili

LEGO-Eval：面向通过工具增强合成3D具身环境的细粒度评估

LEGO-Eval：面向通过工具增强合成3D具身环境的细粒度评估

Gyeom Hwangbo, Hyungjoo Chae, Minseok Kang, et al.

UniAVGen：具有非对称跨模态交互的统一音频与视频生成

UniAVGen：具有非对称跨模态交互的统一音频与视频生成

统一多模态

Guozhen Zhang, Zixiang Zhou, Teng Hu, et al.

扩散语言模型是超数据学习者

扩散语言模型是超数据学习者

自然语言处理

Jinjie Ni, Qian Liu, Longxu Dou, et al.

UNO-Bench：一个用于探索Omni模型中单模态与全模态之间组合规律的统一基准

UNO-Bench：一个用于探索Omni模型中单模态与全模态之间组合规律的统一基准

Chen Chen, ZeYang Hu, Fengjiao Chen, et al.

基于扩散模型的动态人口分布感知人类轨迹生成

基于扩散模型的动态人口分布感知人类轨迹生成

Qingyue Long, Can Rong, Tong Li, et al.

基于3D生成式AI与视觉语言模型的文本到机器人多组件物体装配

基于3D生成式AI与视觉语言模型的文本到机器人多组件物体装配

机器人技术

Alexander Htet Kyaw, Richa Gupta, Dhruv Shah, et al.

Kosmos：用于自主发现的AI Scientist

Kosmos：用于自主发现的AI Scientist

Ludovico Mitchener, Angela Yiu, Benjamin Chang, et al.

更短但不更差：通过简单样本作为长度正则化项实现数学领域的节俭推理RLVR

更短但不更差：通过简单样本作为长度正则化项实现数学领域的节俭推理RLVR

Abdelaziz Bounhar, Hadi Abdine, Evan Dufraisse, et al.

Brain-IT：通过Brain-Interaction Transformer从fMRI进行图像重建

Brain-IT：通过Brain-Interaction Transformer从fMRI进行图像重建

计算机视觉

Roman Beliy, Amit Zalcher, Jonathan Kogman, et al.

模态冲突时：单模态推理不确定性如何主导MLLMs中的偏好动态

模态冲突时：单模态推理不确定性如何主导MLLMs中的偏好动态

Zhuoran Zhang, Tengyue Wang, Xilin Gong, et al.

不要盲视你的VLA：面向OOD泛化的视觉表征对齐

不要盲视你的VLA：面向OOD泛化的视觉表征对齐

多模态表征

Nikita Kachaev, Mikhail Kolosov, Daniil Zelezetsky, et al.

当可视化成为推理的第一步时：MIRA，一个用于视觉链式思维的基准测试

当可视化成为推理的第一步时：MIRA，一个用于视觉链式思维的基准测试

Yiyang Zhou, Haoqin Tu, Zijun Wang, et al.

VCode：一个以SVG作为符号化视觉表示的多模态编码基准

VCode：一个以SVG作为符号化视觉表示的多模态编码基准

Kevin Qinghong Lin, Yuhao Zheng, Hangyu Ran, et al.

人工智能生产力指数（APEX）

人工智能生产力指数（APEX）

Bertie Vidgen, Abby Fennelly, Evan Pinnix, et al.

帧链：通过帧感知推理推进多模态LLM中的视频理解

帧链：通过帧感知推理推进多模态LLM中的视频理解

Sara Ghazanfari, Francesco Croce, Nicolas Flammarion, et al.

面向鲁棒的数学推理

面向鲁棒的数学推理

Thang Luong, Dawsen Hwang, Hoang H. Nguyen, et al.

面向未来基于空间的、高度可扩展的人工智能基础设施系统设计

面向未来基于空间的、高度可扩展的人工智能基础设施系统设计

高性能计算

Blaise Agüera y Arcas, Travis Beals, Maria Biggs, et al.

PHUMA：物理基础的人形行走数据集

PHUMA：物理基础的人形行走数据集

机器人技术

Kyungmin Lee, Sibeen Kim, Minho Park, et al.

UniREditBench：一个统一的基于推理的图像编辑基准

UniREditBench：一个统一的基于推理的图像编辑基准

Feng Han, Yibin Wang, Chenglin Li, et al.

将测试时计算最优缩放泛化为可优化图

将测试时计算最优缩放泛化为可优化图

Fali Wang, Jihai Chen, Shuhua Yang, et al.

UniLumos：基于物理合理反馈的快速统一图像与视频重光照

UniLumos：基于物理合理反馈的快速统一图像与视频重光照

Ropeway Liu, Hangjie Yuan, Bo Dong, et al.

视觉模型在图结构理解中的被低估的力量

视觉模型在图结构理解中的被低估的力量

计算机视觉

Xinjian Zhao, Wei Pang, Zhongkai Xue, et al.

每一次激活都更进一步：将通用推理器扩展至1万亿开放语言基础

每一次激活都更进一步：将通用推理器扩展至1万亿开放语言基础

Ling-Team, Ang Li, Ben Liu, et al.

NOBLE - 具有生物启发的潜在嵌入的神经算子，用于捕捉生物神经元模型中的实验变异性

NOBLE - 具有生物启发的潜在嵌入的神经算子，用于捕捉生物神经元模型中的实验变异性

Luca Ghafourpour, Valentin Duruisseaux, Bahareh Tolooshams, et al.

胶质细胞：一种受人类启发的用于自动化系统设计与优化的AI

胶质细胞：一种受人类启发的用于自动化系统设计与优化的AI

Pouya Hamadanian, Pantea Karimi, Arash Nasr-Esfahany, et al.

上下文工程2.0：上下文工程的上下文

上下文工程2.0：上下文工程的上下文

Qishuo Hua, Lyumanshan Ye, Dayuan Fu, et al.

空间-SSRL：通过自监督强化学习增强空间理解

空间-SSRL：通过自监督强化学习增强空间理解

计算机视觉

Yuhong Liu, Beichen Zhang, Yuhang Zang, et al.

连续自回归语言模型

连续自回归语言模型

Chenze Shao, Darren Li, Fandong Meng, et al.

π𝚁𝙻：基于流的视觉-语言-动作模型的在线RL微调

π𝚁𝙻：基于流的视觉-语言-动作模型的在线RL微调

监督式微调

Kang Chen, Zhihao Liu, Tonghe Zhang, et al.

INT 与 FP：细粒度低比特量化格式的综合研究

INT 与 FP：细粒度低比特量化格式的综合研究

Mengzhao Chen, Meng Wu, Hui Jin, et al.

ThinkMorph：多模态交错思维链推理中的涌现特性

ThinkMorph：多模态交错思维链推理中的涌现特性

Jiawei Gu, Yunzhuo Hao, Huichen Will Wang, et al.

OS-Sentinel：通过在真实工作流中混合验证实现安全增强的移动GUI Agent

OS-Sentinel：通过在真实工作流中混合验证实现安全增强的移动GUI Agent

Qiushi Sun, Mukai Li, Zhoumianze Liu, et al.

LEGO-Eval：面向通过工具增强合成3D具身环境的细粒度评估

LEGO-Eval：面向通过工具增强合成3D具身环境的细粒度评估

Gyeom Hwangbo, Hyungjoo Chae, Minseok Kang, et al.

UniAVGen：具有非对称跨模态交互的统一音频与视频生成

UniAVGen：具有非对称跨模态交互的统一音频与视频生成

统一多模态

Guozhen Zhang, Zixiang Zhou, Teng Hu, et al.

扩散语言模型是超数据学习者

扩散语言模型是超数据学习者

自然语言处理

Jinjie Ni, Qian Liu, Longxu Dou, et al.

UNO-Bench：一个用于探索Omni模型中单模态与全模态之间组合规律的统一基准

UNO-Bench：一个用于探索Omni模型中单模态与全模态之间组合规律的统一基准

Chen Chen, ZeYang Hu, Fengjiao Chen, et al.

基于扩散模型的动态人口分布感知人类轨迹生成

基于扩散模型的动态人口分布感知人类轨迹生成

Qingyue Long, Can Rong, Tong Li, et al.

基于3D生成式AI与视觉语言模型的文本到机器人多组件物体装配

基于3D生成式AI与视觉语言模型的文本到机器人多组件物体装配

机器人技术

Alexander Htet Kyaw, Richa Gupta, Dhruv Shah, et al.

Kosmos：用于自主发现的AI Scientist

Kosmos：用于自主发现的AI Scientist

Ludovico Mitchener, Angela Yiu, Benjamin Chang, et al.

更短但不更差：通过简单样本作为长度正则化项实现数学领域的节俭推理RLVR

更短但不更差：通过简单样本作为长度正则化项实现数学领域的节俭推理RLVR

Abdelaziz Bounhar, Hadi Abdine, Evan Dufraisse, et al.

Brain-IT：通过Brain-Interaction Transformer从fMRI进行图像重建

Brain-IT：通过Brain-Interaction Transformer从fMRI进行图像重建

计算机视觉

Roman Beliy, Amit Zalcher, Jonathan Kogman, et al.

模态冲突时：单模态推理不确定性如何主导MLLMs中的偏好动态

模态冲突时：单模态推理不确定性如何主导MLLMs中的偏好动态

Zhuoran Zhang, Tengyue Wang, Xilin Gong, et al.

不要盲视你的VLA：面向OOD泛化的视觉表征对齐

不要盲视你的VLA：面向OOD泛化的视觉表征对齐

多模态表征

Nikita Kachaev, Mikhail Kolosov, Daniil Zelezetsky, et al.

当可视化成为推理的第一步时：MIRA，一个用于视觉链式思维的基准测试

当可视化成为推理的第一步时：MIRA，一个用于视觉链式思维的基准测试

Yiyang Zhou, Haoqin Tu, Zijun Wang, et al.

VCode：一个以SVG作为符号化视觉表示的多模态编码基准

VCode：一个以SVG作为符号化视觉表示的多模态编码基准

Kevin Qinghong Lin, Yuhao Zheng, Hangyu Ran, et al.

人工智能生产力指数（APEX）

人工智能生产力指数（APEX）

Bertie Vidgen, Abby Fennelly, Evan Pinnix, et al.

帧链：通过帧感知推理推进多模态LLM中的视频理解

帧链：通过帧感知推理推进多模态LLM中的视频理解

Sara Ghazanfari, Francesco Croce, Nicolas Flammarion, et al.

面向鲁棒的数学推理

面向鲁棒的数学推理

Thang Luong, Dawsen Hwang, Hoang H. Nguyen, et al.

面向未来基于空间的、高度可扩展的人工智能基础设施系统设计

面向未来基于空间的、高度可扩展的人工智能基础设施系统设计

高性能计算

Blaise Agüera y Arcas, Travis Beals, Maria Biggs, et al.

PHUMA：物理基础的人形行走数据集

PHUMA：物理基础的人形行走数据集

机器人技术

Kyungmin Lee, Sibeen Kim, Minho Park, et al.

UniREditBench：一个统一的基于推理的图像编辑基准

UniREditBench：一个统一的基于推理的图像编辑基准

Feng Han, Yibin Wang, Chenglin Li, et al.

将测试时计算最优缩放泛化为可优化图

将测试时计算最优缩放泛化为可优化图

Fali Wang, Jihai Chen, Shuhua Yang, et al.

UniLumos：基于物理合理反馈的快速统一图像与视频重光照

UniLumos：基于物理合理反馈的快速统一图像与视频重光照

Ropeway Liu, Hangjie Yuan, Bo Dong, et al.

视觉模型在图结构理解中的被低估的力量

视觉模型在图结构理解中的被低估的力量

计算机视觉

Xinjian Zhao, Wei Pang, Zhongkai Xue, et al.

每一次激活都更进一步：将通用推理器扩展至1万亿开放语言基础

每一次激活都更进一步：将通用推理器扩展至1万亿开放语言基础

Ling-Team, Ang Li, Ben Liu, et al.

NOBLE - 具有生物启发的潜在嵌入的神经算子，用于捕捉生物神经元模型中的实验变异性

NOBLE - 具有生物启发的潜在嵌入的神经算子，用于捕捉生物神经元模型中的实验变异性

Luca Ghafourpour, Valentin Duruisseaux, Bahareh Tolooshams, et al.

胶质细胞：一种受人类启发的用于自动化系统设计与优化的AI

胶质细胞：一种受人类启发的用于自动化系统设计与优化的AI

Pouya Hamadanian, Pantea Karimi, Arash Nasr-Esfahany, et al.

上下文工程2.0：上下文工程的上下文

上下文工程2.0：上下文工程的上下文

Qishuo Hua, Lyumanshan Ye, Dayuan Fu, et al.

空间-SSRL：通过自监督强化学习增强空间理解

空间-SSRL：通过自监督强化学习增强空间理解

计算机视觉

Yuhong Liu, Beichen Zhang, Yuhang Zang, et al.

连续自回归语言模型

连续自回归语言模型

Chenze Shao, Darren Li, Fandong Meng, et al.

π𝚁𝙻：基于流的视觉-语言-动作模型的在线RL微调

π𝚁𝙻：基于流的视觉-语言-动作模型的在线RL微调

监督式微调

Kang Chen, Zhihao Liu, Tonghe Zhang, et al.

INT 与 FP：细粒度低比特量化格式的综合研究

INT 与 FP：细粒度低比特量化格式的综合研究

Mengzhao Chen, Meng Wu, Hui Jin, et al.

ThinkMorph：多模态交错思维链推理中的涌现特性

ThinkMorph：多模态交错思维链推理中的涌现特性

Jiawei Gu, Yunzhuo Hao, Huichen Will Wang, et al.

OS-Sentinel：通过在真实工作流中混合验证实现安全增强的移动GUI Agent

OS-Sentinel：通过在真实工作流中混合验证实现安全增强的移动GUI Agent

Qiushi Sun, Mukai Li, Zhoumianze Liu, et al.