HyperAI

主区域

GPU

控制台
文档
价格

Pulse

报道

资源

论文
教程
数据集
百科

基准测试

SOTA
大语言模型（LLM）
GPU 排行榜

社区

活动

实用工具

关于服务条款隐私政策
中文

Command Palette

Search for a command to run...

HyperAI
论文

论文

每日更新的前沿人工智能研究论文,帮助您紧跟最新的人工智能趋势

学习、理解、实践，与社区一起构建人工智能的未来

关于

关于我们数据集支持

产品

报道教程数据集百科

链接

TVM 中文 Apache TVM

© HyperAI

津ICP备17010941号-1

京公网安备11010502038810号

GitHub Discord X (formerly Twitter)Bilibili

HyperAI

主区域

GPU

控制台
文档
价格

Pulse

报道

资源

论文
教程
数据集
百科

基准测试

SOTA
大语言模型（LLM）
GPU 排行榜

社区

活动

实用工具

关于服务条款隐私政策
中文

Command Palette

Search for a command to run...

HyperAI
论文

论文

每日更新的前沿人工智能研究论文,帮助您紧跟最新的人工智能趋势

学习、理解、实践，与社区一起构建人工智能的未来

关于

关于我们数据集支持

产品

报道教程数据集百科

链接

TVM 中文 Apache TVM

© HyperAI

津ICP备17010941号-1

京公网安备11010502038810号

GitHub Discord X (formerly Twitter)Bilibili

DreamActor-M2：通过时空上下文学习实现通用角色图像动画

DreamActor-M2：通过时空上下文学习实现通用角色图像动画

Mingshuang Luo, Shuang Liang, Zhengkun Rong, et al.

TTCS：用于自演化系统的测试时课程合成

TTCS：用于自演化系统的测试时课程合成

Chengyi Yang, Zhishang Xiang, Yunbo Tang, et al.

ASTRA：智能体轨迹与强化环境的自动化合成

ASTRA：智能体轨迹与强化环境的自动化合成

Xiaoyu Tian, Haotian Wang, Shuaiting Chen, et al.

自蒸馏实现持续学习

自蒸馏实现持续学习

监督式微调

Idan Shenfeld, Mehul Damani, Jonas Hübotter, et al.

面向执行基础的自动化AI研究

面向执行基础的自动化AI研究

Chenglei Si, Zitong Yang, Yejin Choi, et al.

DynamicVLA：一种用于动态物体操作的视觉-语言-动作模型

DynamicVLA：一种用于动态物体操作的视觉-语言-动作模型

机器人技术

Haozhe Xie, Beichen Wen, Jiarui Zheng, et al.

MMFineReason：通过开放数据驱动方法弥合多模态推理差距

MMFineReason：通过开放数据驱动方法弥合多模态推理差距

Honglin Lin, Zheng Liu, Yun Zhu, et al.

OCRVerse：迈向端到端视觉-语言模型中的全面OCR

OCRVerse：迈向端到端视觉-语言模型中的全面OCR

Yufeng Zhong, Lei Chen, Xuanle Zhao, et al.

扩展嵌入空间在语言模型中的表现优于扩展专家模型

扩展嵌入空间在语言模型中的表现优于扩展专家模型

检索增强生成

Hong Liu, Jiaqi Zhang, Chao Wang, et al.

Idea2Story：一种将研究概念自动转化为完整科学叙事的流水线

Idea2Story：一种将研究概念自动转化为完整科学叙事的流水线

Tengyue Xu, Zhuoyang Qian, Gaoge Liu, et al.

各归其位：文本到图像模型空间智能的基准测试

各归其位：文本到图像模型空间智能的基准测试

Zengbin Wang, Xuecai Hu, Yong Wang, et al.

Qwen3-ASR 技术报告

Qwen3-ASR 技术报告

音频和语音处理

Xian Shi, Xiong Wang, Zhifang Guo, et al.

Insight Agents：一种基于LLM的多代理数据洞察系统

Insight Agents：一种基于LLM的多代理数据洞察系统

Jincheng Bai, Zhenyu Zhang, Jennifer Zhang, et al.

通过简单点预测实现像素级VLM感知

通过简单点预测实现像素级VLM感知

多模态表征

Tianhui Song, Haoyu Lu, Hao Yang, et al.

Youtu-VL：通过统一的视觉-语言监督释放视觉潜能

Youtu-VL：通过统一的视觉-语言监督释放视觉潜能

多模态表征

统一多模态

Zhixiang Wei, Yi Li, Zhehan Kan, et al.

Innovator-VL：面向科学发现的多模态大语言模型

Innovator-VL：面向科学发现的多模态大语言模型

多模态表征

Zichen Wen, Boxue Yang, Shuang Chen, et al.

推进开源世界模型

推进开源世界模型

Robbyant Team, Zelin Gao, Qiuyu Wang, et al.

更难才更好：通过感知难度的GRPO与多维度问题重表述提升数学推理能力

更难才更好：通过感知难度的GRPO与多维度问题重表述提升数学推理能力

Yanqi Dai, Yuxiang Ji, Xiao Zhang, et al.

短窗口注意力实现长期记忆化

短窗口注意力实现长期记忆化

Loïc Cabannes, Maximilian Beck, Gergely Szilvasy, et al.

World Craft：通过文本创建可可视化世界的智能体框架

World Craft：通过文本创建可可视化世界的智能体框架

Jianwen Sun, Yukang Feng, Kaining Ying, et al.

视觉生成通过多模态世界模型解锁类人推理

视觉生成通过多模态世界模型解锁类人推理

Jialong Wu, Xiaoying Zhang, Hongyi Yuan, et al.

掩码深度建模用于空间感知

掩码深度建模用于空间感知

Bin Tan, Changjiang Sun, Xiage Qin, et al.

一种实用的VLA基础模型

一种实用的VLA基础模型

机器人技术

Wei Wu, Fan Lu, Yunnan Wang, et al.

AdaReasoner：用于迭代视觉推理的动态工具编排

AdaReasoner：用于迭代视觉推理的动态工具编排

Mingyang Song, Haoyu Sun, Jiawei Gu, et al.

AgentDoG：面向AI Agent安全与可信的诊断防护框架

AgentDoG：面向AI Agent安全与可信的诊断防护框架

Dongrui Liu, Qihan Ren, Chen Qian, et al.

Arcee Trinity 大型技术报告

Arcee Trinity 大型技术报告

Varun Singh, Lucas Krauss, Sami Jaghouar, et al.

让模型学会自我教学：在可学习性边缘的推理

让模型学会自我教学：在可学习性边缘的推理

Shobhita Sundaram, John Quan, Ariel Kwiatkowski, et al.

ATLAS：多语言预训练、微调与解码多语言困境的自适应迁移缩放定律

ATLAS：多语言预训练、微调与解码多语言困境的自适应迁移缩放定律

Shayne Longpre, Sneha Kudugunta, Niklas Muennighoff, et al.

iFSQ：仅需一行代码提升图像生成中的FSQ性能

iFSQ：仅需一行代码提升图像生成中的FSQ性能

Bin Lin, Zongjian Li, Yuwei Niu, et al.

弹性注意力：面向高效Transformer的测试时自适应稀疏率

弹性注意力：面向高效Transformer的测试时自适应稀疏率

Zecheng Tang, Quantong Qiu, Yi Yang, et al.

科学图像生成：基准测试、方法论及下游应用价值

科学图像生成：基准测试、方法论及下游应用价值

Honglin Lin, Chonghan Qin, Zheng Liu, et al.

脚本即一切：一种面向长时程对话到影视视频生成的智能体框架

脚本即一切：一种面向长时程对话到影视视频生成的智能体框架

Chenyu Mu, Xin He, Qu Yang, et al.

DreamActor-M2：通过时空上下文学习实现通用角色图像动画

DreamActor-M2：通过时空上下文学习实现通用角色图像动画

Mingshuang Luo, Shuang Liang, Zhengkun Rong, et al.

TTCS：用于自演化系统的测试时课程合成

TTCS：用于自演化系统的测试时课程合成

Chengyi Yang, Zhishang Xiang, Yunbo Tang, et al.

ASTRA：智能体轨迹与强化环境的自动化合成

ASTRA：智能体轨迹与强化环境的自动化合成

Xiaoyu Tian, Haotian Wang, Shuaiting Chen, et al.

自蒸馏实现持续学习

自蒸馏实现持续学习

监督式微调

Idan Shenfeld, Mehul Damani, Jonas Hübotter, et al.

面向执行基础的自动化AI研究

面向执行基础的自动化AI研究

Chenglei Si, Zitong Yang, Yejin Choi, et al.

DynamicVLA：一种用于动态物体操作的视觉-语言-动作模型

DynamicVLA：一种用于动态物体操作的视觉-语言-动作模型

机器人技术

Haozhe Xie, Beichen Wen, Jiarui Zheng, et al.

MMFineReason：通过开放数据驱动方法弥合多模态推理差距

MMFineReason：通过开放数据驱动方法弥合多模态推理差距

Honglin Lin, Zheng Liu, Yun Zhu, et al.

OCRVerse：迈向端到端视觉-语言模型中的全面OCR

OCRVerse：迈向端到端视觉-语言模型中的全面OCR

Yufeng Zhong, Lei Chen, Xuanle Zhao, et al.

扩展嵌入空间在语言模型中的表现优于扩展专家模型

扩展嵌入空间在语言模型中的表现优于扩展专家模型

检索增强生成

Hong Liu, Jiaqi Zhang, Chao Wang, et al.

Idea2Story：一种将研究概念自动转化为完整科学叙事的流水线

Idea2Story：一种将研究概念自动转化为完整科学叙事的流水线

Tengyue Xu, Zhuoyang Qian, Gaoge Liu, et al.

各归其位：文本到图像模型空间智能的基准测试

各归其位：文本到图像模型空间智能的基准测试

Zengbin Wang, Xuecai Hu, Yong Wang, et al.

Qwen3-ASR 技术报告

Qwen3-ASR 技术报告

音频和语音处理

Xian Shi, Xiong Wang, Zhifang Guo, et al.

Insight Agents：一种基于LLM的多代理数据洞察系统

Insight Agents：一种基于LLM的多代理数据洞察系统

Jincheng Bai, Zhenyu Zhang, Jennifer Zhang, et al.

通过简单点预测实现像素级VLM感知

通过简单点预测实现像素级VLM感知

多模态表征

Tianhui Song, Haoyu Lu, Hao Yang, et al.

Youtu-VL：通过统一的视觉-语言监督释放视觉潜能

Youtu-VL：通过统一的视觉-语言监督释放视觉潜能

多模态表征

统一多模态

Zhixiang Wei, Yi Li, Zhehan Kan, et al.

Innovator-VL：面向科学发现的多模态大语言模型

Innovator-VL：面向科学发现的多模态大语言模型

多模态表征

Zichen Wen, Boxue Yang, Shuang Chen, et al.

推进开源世界模型

推进开源世界模型

Robbyant Team, Zelin Gao, Qiuyu Wang, et al.

更难才更好：通过感知难度的GRPO与多维度问题重表述提升数学推理能力

更难才更好：通过感知难度的GRPO与多维度问题重表述提升数学推理能力

Yanqi Dai, Yuxiang Ji, Xiao Zhang, et al.

短窗口注意力实现长期记忆化

短窗口注意力实现长期记忆化

Loïc Cabannes, Maximilian Beck, Gergely Szilvasy, et al.

World Craft：通过文本创建可可视化世界的智能体框架

World Craft：通过文本创建可可视化世界的智能体框架

Jianwen Sun, Yukang Feng, Kaining Ying, et al.

视觉生成通过多模态世界模型解锁类人推理

视觉生成通过多模态世界模型解锁类人推理

Jialong Wu, Xiaoying Zhang, Hongyi Yuan, et al.

掩码深度建模用于空间感知

掩码深度建模用于空间感知

Bin Tan, Changjiang Sun, Xiage Qin, et al.

一种实用的VLA基础模型

一种实用的VLA基础模型

机器人技术

Wei Wu, Fan Lu, Yunnan Wang, et al.

AdaReasoner：用于迭代视觉推理的动态工具编排

AdaReasoner：用于迭代视觉推理的动态工具编排

Mingyang Song, Haoyu Sun, Jiawei Gu, et al.

AgentDoG：面向AI Agent安全与可信的诊断防护框架

AgentDoG：面向AI Agent安全与可信的诊断防护框架

Dongrui Liu, Qihan Ren, Chen Qian, et al.

Arcee Trinity 大型技术报告

Arcee Trinity 大型技术报告

Varun Singh, Lucas Krauss, Sami Jaghouar, et al.

让模型学会自我教学：在可学习性边缘的推理

让模型学会自我教学：在可学习性边缘的推理

Shobhita Sundaram, John Quan, Ariel Kwiatkowski, et al.

ATLAS：多语言预训练、微调与解码多语言困境的自适应迁移缩放定律

ATLAS：多语言预训练、微调与解码多语言困境的自适应迁移缩放定律

Shayne Longpre, Sneha Kudugunta, Niklas Muennighoff, et al.

iFSQ：仅需一行代码提升图像生成中的FSQ性能

iFSQ：仅需一行代码提升图像生成中的FSQ性能

Bin Lin, Zongjian Li, Yuwei Niu, et al.

弹性注意力：面向高效Transformer的测试时自适应稀疏率

弹性注意力：面向高效Transformer的测试时自适应稀疏率

Zecheng Tang, Quantong Qiu, Yi Yang, et al.

科学图像生成：基准测试、方法论及下游应用价值

科学图像生成：基准测试、方法论及下游应用价值

Honglin Lin, Chonghan Qin, Zheng Liu, et al.

脚本即一切：一种面向长时程对话到影视视频生成的智能体框架

脚本即一切：一种面向长时程对话到影视视频生成的智能体框架

Chenyu Mu, Xin He, Qu Yang, et al.