HyperAI

主区域

GPU

控制台
文档
价格

Pulse

报道

资源

论文
教程
数据集
百科

基准测试

SOTA
大语言模型（LLM）
GPU 排行榜

社区

活动

实用工具

关于服务条款隐私政策
中文

Command Palette

Search for a command to run...

HyperAI
论文

论文

每日更新的前沿人工智能研究论文,帮助您紧跟最新的人工智能趋势

学习、理解、实践，与社区一起构建人工智能的未来

关于

关于我们数据集支持

产品

报道教程数据集百科

链接

TVM 中文 Apache TVM

© HyperAI

津ICP备17010941号-1

京公网安备11010502038810号

GitHub Discord X (formerly Twitter)Bilibili

HyperAI

主区域

GPU

控制台
文档
价格

Pulse

报道

资源

论文
教程
数据集
百科

基准测试

SOTA
大语言模型（LLM）
GPU 排行榜

社区

活动

实用工具

关于服务条款隐私政策
中文

Command Palette

Search for a command to run...

HyperAI
论文

论文

每日更新的前沿人工智能研究论文,帮助您紧跟最新的人工智能趋势

学习、理解、实践，与社区一起构建人工智能的未来

关于

关于我们数据集支持

产品

报道教程数据集百科

链接

TVM 中文 Apache TVM

© HyperAI

津ICP备17010941号-1

京公网安备11010502038810号

GitHub Discord X (formerly Twitter)Bilibili

优化块注意力混合

优化块注意力混合

Guangxuan Xiao, Junxian Guo, Kasra Mazaheri, et al.

分形取证：通过分形水印实现主动式深度伪造检测与定位

分形取证：通过分形水印实现主动式深度伪造检测与定位

计算机视觉

Tianyi Wang, Harry Cheng, Ming-Hui Liu, et al.

思维链劫持

思维链劫持

Jianli Zhao, Tingchen Fu, Rylan Schaeffer, et al.

InstanceAssemble：通过实例组装注意力实现布局感知的图像生成

InstanceAssemble：通过实例组装注意力实现布局感知的图像生成

Qiang Xiang, Shuang Sun, Binglei Li, et al.

3EED：在三维空间中处处实现万物具身化

3EED：在三维空间中处处实现万物具身化

机器视觉 3D

Rong Li, Yuhao Dong, Tianshuai Hu, et al.

DetectiumFire：一个全面的多模态数据集，连接视觉与语言以实现火灾理解

DetectiumFire：一个全面的多模态数据集，连接视觉与语言以实现火灾理解

Zixuan Liu, Siavash H. Khajavi, Guangkai Jiang

CHIP：工业场景中椅子6D位姿估计的多传感器数据集

CHIP：工业场景中椅子6D位姿估计的多传感器数据集

机器视觉 3D

机器人技术

Mattia Nardon, Mikel Mujika Agirre, Ander González Tomé, et al.

几何约束Agent用于空间推理

几何约束Agent用于空间推理

Zeren Chen, Xiaoya Lu, Zhijie Zheng, et al.

DeepSeek-V3.2：推动开源大型语言模型的前沿

DeepSeek-V3.2：推动开源大型语言模型的前沿

DeepSeek-AI, Aixin Liu, Aoxue Mei, et al.

DiP：在像素空间中驯服扩散模型

DiP：在像素空间中驯服扩散模型

Zhennan Chen, Junwei Zhu, Xu Chen, et al.

架构解耦并非构建统一多模态模型的全部所需

架构解耦并非构建统一多模态模型的全部所需

统一多模态

多任务学习

Dian Zheng, Manyuan Zhang, Hongyu Li, et al.

大规模视觉桥接Transformer

大规模视觉桥接Transformer

Zhenxiong Tan, Zeqing Wang, Xingyi Yang, et al.

AnyTalker：通过交互式优化实现多人物对话视频生成的扩展

AnyTalker：通过交互式优化实现多人物对话视频生成的扩展

Zhizhou Zhong, Yicheng Ji, Zhe Kong, et al.

REASONEDIT：面向推理增强的图像编辑模型

REASONEDIT：面向推理增强的图像编辑模型

Fukun Yin, Shiyu Liu, Yucheng Han, et al.

OpenApps：通过模拟环境变化来衡量UI-Agent的可靠性

OpenApps：通过模拟环境变化来衡量UI-Agent的可靠性

Karen Ullrich, Jingtong Su, Claudia Shi, et al.

通义千问3-VL 技术报告

通义千问3-VL 技术报告

统一多模态

多模态表征

Shuai Bai, Yuxuan Cai, Ruizhe Chen, et al.

G$^2$VLM：具有统一3D重建与空间推理能力的几何引导视觉语言模型

G$^2$VLM：具有统一3D重建与空间推理能力的几何引导视觉语言模型

多模态表征

Wenbo Hu, Jingli Lin, Yilin Long, et al.

Multi-Crit：基于多元标准遵循的多模态评判基准

Multi-Crit：基于多元标准遵循的多模态评判基准

Tianyi Xiong, Yi Ge, Ming Li, et al.

MIRA：用于图像编辑的多模态迭代推理Agent

MIRA：用于图像编辑的多模态迭代推理Agent

Ziyun Zeng, Hang Hua, Jiebo Luo

ENACT：基于第一人称交互世界建模的具身认知评估

ENACT：基于第一人称交互世界建模的具身认知评估

Qineng Wang, Wenlong Huang, Yu Zhou, et al.

画布到图像：基于多模态控制的组合图像生成

画布到图像：基于多模态控制的组合图像生成

Yusuf Dalva, Guocheng Gordon Qian, Maya Goldenberg, et al.

视频生成模型是优秀的潜在奖励模型

视频生成模型是优秀的潜在奖励模型

统一多模态

Xiaoyue Mi, Wenqing Yu, Jiesong Lian, et al.

DeepSeekMath-V2：迈向自验证的数学推理

DeepSeekMath-V2：迈向自验证的数学推理

Zhihong Shao, Yuxiang Luo, Chengda Lu, et al.

ToolOrchestra：通过高效的模型与工具编排提升智能

ToolOrchestra：通过高效的模型与工具编排提升智能

Hongjin Su, Shizhe Diao, Ximing Lu, et al.

视觉思考，文本推理：ARC中的视觉-语言协同作用

视觉思考，文本推理：ARC中的视觉-语言协同作用

Beichen Zhang, Yuhang Zang, Xiaoyi Dong, et al.

和谐：通过跨任务协同实现音频与视频生成的协同统一

和谐：通过跨任务协同实现音频与视频生成的协同统一

统一多模态

Teng Hu, Zhentao Yu, Guozhen Zhang, et al.

Inferix：一种基于块扩散的下一代推理引擎，用于世界模拟

Inferix：一种基于块扩散的下一代推理引擎，用于世界模拟

Inferix Team, Tianyu Feng, Yizeng Han, et al.

多智能体系统中的潜在协作

多智能体系统中的潜在协作

Jiaru Zou, Xiyuan Yang, Ruizhong Qiu, et al.

多模态评估俄语语言架构

多模态评估俄语语言架构

Artem Chervyakov, Ulyana Isaeva, Anton Emelyanov, et al.

ROOT：用于神经网络训练的鲁棒正交化优化器

ROOT：用于神经网络训练的鲁棒正交化优化器

Wei He, Kai Han, Hang Zhou, et al.

叠加效应带来稳健的神经缩放

叠加效应带来稳健的神经缩放

Yizhou Liu, Ziming Liu, Jeff Gore

直接在线学习的最优错误界

直接在线学习的最优错误界

Zachary Chase, Steve Hanneke, Shay Moran, et al.

优化块注意力混合

优化块注意力混合

Guangxuan Xiao, Junxian Guo, Kasra Mazaheri, et al.

分形取证：通过分形水印实现主动式深度伪造检测与定位

分形取证：通过分形水印实现主动式深度伪造检测与定位

计算机视觉

Tianyi Wang, Harry Cheng, Ming-Hui Liu, et al.

思维链劫持

思维链劫持

Jianli Zhao, Tingchen Fu, Rylan Schaeffer, et al.

InstanceAssemble：通过实例组装注意力实现布局感知的图像生成

InstanceAssemble：通过实例组装注意力实现布局感知的图像生成

Qiang Xiang, Shuang Sun, Binglei Li, et al.

3EED：在三维空间中处处实现万物具身化

3EED：在三维空间中处处实现万物具身化

机器视觉 3D

Rong Li, Yuhao Dong, Tianshuai Hu, et al.

DetectiumFire：一个全面的多模态数据集，连接视觉与语言以实现火灾理解

DetectiumFire：一个全面的多模态数据集，连接视觉与语言以实现火灾理解

Zixuan Liu, Siavash H. Khajavi, Guangkai Jiang

CHIP：工业场景中椅子6D位姿估计的多传感器数据集

CHIP：工业场景中椅子6D位姿估计的多传感器数据集

机器视觉 3D

机器人技术

Mattia Nardon, Mikel Mujika Agirre, Ander González Tomé, et al.

几何约束Agent用于空间推理

几何约束Agent用于空间推理

Zeren Chen, Xiaoya Lu, Zhijie Zheng, et al.

DeepSeek-V3.2：推动开源大型语言模型的前沿

DeepSeek-V3.2：推动开源大型语言模型的前沿

DeepSeek-AI, Aixin Liu, Aoxue Mei, et al.

DiP：在像素空间中驯服扩散模型

DiP：在像素空间中驯服扩散模型

Zhennan Chen, Junwei Zhu, Xu Chen, et al.

架构解耦并非构建统一多模态模型的全部所需

架构解耦并非构建统一多模态模型的全部所需

统一多模态

多任务学习

Dian Zheng, Manyuan Zhang, Hongyu Li, et al.

大规模视觉桥接Transformer

大规模视觉桥接Transformer

Zhenxiong Tan, Zeqing Wang, Xingyi Yang, et al.

AnyTalker：通过交互式优化实现多人物对话视频生成的扩展

AnyTalker：通过交互式优化实现多人物对话视频生成的扩展

Zhizhou Zhong, Yicheng Ji, Zhe Kong, et al.

REASONEDIT：面向推理增强的图像编辑模型

REASONEDIT：面向推理增强的图像编辑模型

Fukun Yin, Shiyu Liu, Yucheng Han, et al.

OpenApps：通过模拟环境变化来衡量UI-Agent的可靠性

OpenApps：通过模拟环境变化来衡量UI-Agent的可靠性

Karen Ullrich, Jingtong Su, Claudia Shi, et al.

通义千问3-VL 技术报告

通义千问3-VL 技术报告

统一多模态

多模态表征

Shuai Bai, Yuxuan Cai, Ruizhe Chen, et al.

G$^2$VLM：具有统一3D重建与空间推理能力的几何引导视觉语言模型

G$^2$VLM：具有统一3D重建与空间推理能力的几何引导视觉语言模型

多模态表征

Wenbo Hu, Jingli Lin, Yilin Long, et al.

Multi-Crit：基于多元标准遵循的多模态评判基准

Multi-Crit：基于多元标准遵循的多模态评判基准

Tianyi Xiong, Yi Ge, Ming Li, et al.

MIRA：用于图像编辑的多模态迭代推理Agent

MIRA：用于图像编辑的多模态迭代推理Agent

Ziyun Zeng, Hang Hua, Jiebo Luo

ENACT：基于第一人称交互世界建模的具身认知评估

ENACT：基于第一人称交互世界建模的具身认知评估

Qineng Wang, Wenlong Huang, Yu Zhou, et al.

画布到图像：基于多模态控制的组合图像生成

画布到图像：基于多模态控制的组合图像生成

Yusuf Dalva, Guocheng Gordon Qian, Maya Goldenberg, et al.

视频生成模型是优秀的潜在奖励模型

视频生成模型是优秀的潜在奖励模型

统一多模态

Xiaoyue Mi, Wenqing Yu, Jiesong Lian, et al.

DeepSeekMath-V2：迈向自验证的数学推理

DeepSeekMath-V2：迈向自验证的数学推理

Zhihong Shao, Yuxiang Luo, Chengda Lu, et al.

ToolOrchestra：通过高效的模型与工具编排提升智能

ToolOrchestra：通过高效的模型与工具编排提升智能

Hongjin Su, Shizhe Diao, Ximing Lu, et al.

视觉思考，文本推理：ARC中的视觉-语言协同作用

视觉思考，文本推理：ARC中的视觉-语言协同作用

Beichen Zhang, Yuhang Zang, Xiaoyi Dong, et al.

和谐：通过跨任务协同实现音频与视频生成的协同统一

和谐：通过跨任务协同实现音频与视频生成的协同统一

统一多模态

Teng Hu, Zhentao Yu, Guozhen Zhang, et al.

Inferix：一种基于块扩散的下一代推理引擎，用于世界模拟

Inferix：一种基于块扩散的下一代推理引擎，用于世界模拟

Inferix Team, Tianyu Feng, Yizeng Han, et al.

多智能体系统中的潜在协作

多智能体系统中的潜在协作

Jiaru Zou, Xiyuan Yang, Ruizhong Qiu, et al.

多模态评估俄语语言架构

多模态评估俄语语言架构

Artem Chervyakov, Ulyana Isaeva, Anton Emelyanov, et al.

ROOT：用于神经网络训练的鲁棒正交化优化器

ROOT：用于神经网络训练的鲁棒正交化优化器

Wei He, Kai Han, Hang Zhou, et al.

叠加效应带来稳健的神经缩放

叠加效应带来稳健的神经缩放

Yizhou Liu, Ziming Liu, Jeff Gore

直接在线学习的最优错误界

直接在线学习的最优错误界

Zachary Chase, Steve Hanneke, Shay Moran, et al.