HyperAI

主区域

GPU

控制台
文档
价格

Pulse

报道

资源

论文
教程
数据集
百科

基准测试

SOTA
大语言模型（LLM）
GPU 排行榜

社区

活动

实用工具

关于服务条款隐私政策
中文

Command Palette

Search for a command to run...

HyperAI
论文

论文

每日更新的前沿人工智能研究论文,帮助您紧跟最新的人工智能趋势

学习、理解、实践，与社区一起构建人工智能的未来

关于

关于我们数据集支持

产品

报道教程数据集百科

链接

TVM 中文 Apache TVM

© HyperAI

津ICP备17010941号-1

京公网安备11010502038810号

GitHub Discord X (formerly Twitter)Bilibili

HyperAI

主区域

GPU

控制台
文档
价格

Pulse

报道

资源

论文
教程
数据集
百科

基准测试

SOTA
大语言模型（LLM）
GPU 排行榜

社区

活动

实用工具

关于服务条款隐私政策
中文

Command Palette

Search for a command to run...

HyperAI
论文

论文

每日更新的前沿人工智能研究论文,帮助您紧跟最新的人工智能趋势

学习、理解、实践，与社区一起构建人工智能的未来

关于

关于我们数据集支持

产品

报道教程数据集百科

链接

TVM 中文 Apache TVM

© HyperAI

津ICP备17010941号-1

京公网安备11010502038810号

GitHub Discord X (formerly Twitter)Bilibili

SemanticGen：语义空间中的视频生成

SemanticGen：语义空间中的视频生成

Jianhong Bai, Xiaoshi Wu, Xintao Wang, et al.

基于人机协同推理大型语言模型Agent的自动化立体定向放射外科计划

基于人机协同推理大型语言模型Agent的自动化立体定向放射外科计划

Humza Nusrat, Luke Francisco, Bing Luo, et al.

LongVideoAgent：基于长视频的多Agent推理

LongVideoAgent：基于长视频的多Agent推理

Runtao Liu, Ziyi Liu, Jiaqi Tang, et al.

GenEnv：LLM Agent 与环境模拟器之间的难度对齐协同进化

GenEnv：LLM Agent 与环境模拟器之间的难度对齐协同进化

Jiacheng Guo, Ling Yang, Peter Chen, et al.

WorldWarp：基于异步视频扩散的3D几何传播

WorldWarp：基于异步视频扩散的3D几何传播

Hanyang Kong, Xingyi Yang, Xiaoxu Zheng, et al.

LoGoPlanner：基于定位的度量感知视觉几何导航策略

LoGoPlanner：基于定位的度量感知视觉几何导航策略

Jiaqi Peng, Wenzhe Cai, Yuqiang Yang, et al.

LLM能否评估学生困难？基于能力模拟的师生AI难度对齐在题目难度预测中的应用

LLM能否评估学生困难？基于能力模拟的师生AI难度对齐在题目难度预测中的应用

Ming Li, Han Chen, Yunze Xiao, et al.

QuCo-RAG：基于预训练语料库量化不确定性以实现动态检索增强生成

QuCo-RAG：基于预训练语料库量化不确定性以实现动态检索增强生成

检索增强生成

Dehai Min, Kailin Zhang, Tongtong Wu, et al.

棱镜假说：通过统一自编码实现语义与像素表征的融合

棱镜假说：通过统一自编码实现语义与像素表征的融合

多模态表征

统一多模态

Weichen Fan, Haiwen Diao, Quan Wang, et al.

Med-Banana-50K：用于文本引导的医学图像编辑的跨模态大规模数据集

Med-Banana-50K：用于文本引导的医学图像编辑的跨模态大规模数据集

Zhihui Chen, Mengling Feng

Kascade：一种面向长上下文LLM推理的实用稀疏注意力方法

Kascade：一种面向长上下文LLM推理的实用稀疏注意力方法

Dhruv Deshmukh, Saurabh Goyal, Nipun Kwatra, et al.

GLM-4.5：智能体、推理与编程（ARC）基础模型

GLM-4.5：智能体、推理与编程（ARC）基础模型

GroundingME：通过多维评估揭示MLLMs中的视觉定位鸿沟

GroundingME：通过多维评估揭示MLLMs中的视觉定位鸿沟

Rang Li, Lei Li, Shuhuai Ren, et al.

语义与重构同样重要：使表示编码器适用于文本到图像生成与编辑

语义与重构同样重要：使表示编码器适用于文本到图像生成与编辑

Shilong Zhang, He Zhang, Zhifei Zhang, et al.

4D-RGPT：通过感知蒸馏实现区域级4D理解

4D-RGPT：通过感知蒸馏实现区域级4D理解

多模态表征

Chiao-An Yang, Ryo Hachiuma, Sifei Liu, et al.

Seed-Prover 1.5：通过经验学习掌握本科水平定理证明

Seed-Prover 1.5：通过经验学习掌握本科水平定理证明

Jiangjie Chen, Wenxiang Chen, Jiacheng Du, et al.

当推理遇见其法则

当推理遇见其法则

Junyu Zhang, Yifan Sun, Tianang Leng, et al.

基于科学家对齐工作流的LLM科学通用智能探究

基于科学家对齐工作流的LLM科学通用智能探究

Wanghan Xu, Yuhao Zhou, Yifan Zhou, et al.

K2-V2：一个360-开放、推理增强的LLM

K2-V2：一个360-开放、推理增强的LLM

监督式微调

Zhengzhong Liu, Liping Tang, Linghao Jin, et al.

VenusBench-GD：面向多样化定位任务的综合性多平台GUI基准

VenusBench-GD：面向多样化定位任务的综合性多平台GUI基准

Beitong Zhou, Zhexiao Huang, Yuan Guo, et al.

MCIF：来自科学演讲的多模态跨语言指令遵循基准

MCIF：来自科学演讲的多模态跨语言指令遵循基准

统一多模态

Sara Papi, Maike Züfle, Marco Gaido, et al.

NitroGen：面向通用游戏Agent的开源基础模型

NitroGen：面向通用游戏Agent的开源基础模型

计算机视觉

Loic Magne, Anas Awadalla, Guanzhi Wang, et al.

H-神经元：关于LLM中与幻觉相关的神经元的存在性、影响及其起源

H-神经元：关于LLM中与幻觉相关的神经元的存在性、影响及其起源

自然语言处理

Cheng Gao, Huimin Chen, Chaojun Xiao, et al.

世界即你的画布：通过参考图像、轨迹与文本绘制可提示事件

世界即你的画布：通过参考图像、轨迹与文本绘制可提示事件

Hanlin Wang, Hao Ouyang, Qiuyu Wang, et al.

炼金术师：通过元梯度数据选择解锁文本到图像模型训练的效率

炼金术师：通过元梯度数据选择解锁文本到图像模型训练的效率

Kaixin Ding, Yang Zhou, Xi Chen, et al.

深度任意全景图：一种全景深度估计的基础模型

深度任意全景图：一种全景深度估计的基础模型

机器视觉 3D

Xin Lin, Meixi Song, Dizhe Zhang, et al.

生成式重聚焦：从单张图像实现灵活的失焦控制

生成式重聚焦：从单张图像实现灵活的失焦控制

Chun-Wei Tuan Mu, Jia-Bin Huang, Yu-Lun Liu

StereoPilot：通过生成先验学习统一且高效的立体转换

StereoPilot：通过生成先验学习统一且高效的立体转换

Guibao Shen, Yihua Du, Wenhang Ge, et al.

下一代嵌入预测助力强大视觉学习器的构建

下一代嵌入预测助力强大视觉学习器的构建

计算机视觉

Sihan Xu, Ziqiao Ma, Wenhao Chai, et al.

Agent AI：探索多模态交互的前沿

Agent AI：探索多模态交互的前沿

Zane Durante, Qiuyuan Huang, Naoki Wake, et al.

人工智能数学家作为推动数学发现的合作伙伴——均质化理论中的案例研究

人工智能数学家作为推动数学发现的合作伙伴——均质化理论中的案例研究

Yuanhang Liu, Beichen Wang, Peng Li, et al.

GenEval 2：应对文本到图像评估中的基准漂移问题

GenEval 2：应对文本到图像评估中的基准漂移问题

Amita Kamath, Kai-Wei Chang, Ranjay Krishna, et al.

SemanticGen：语义空间中的视频生成

SemanticGen：语义空间中的视频生成

Jianhong Bai, Xiaoshi Wu, Xintao Wang, et al.

基于人机协同推理大型语言模型Agent的自动化立体定向放射外科计划

基于人机协同推理大型语言模型Agent的自动化立体定向放射外科计划

Humza Nusrat, Luke Francisco, Bing Luo, et al.

LongVideoAgent：基于长视频的多Agent推理

LongVideoAgent：基于长视频的多Agent推理

Runtao Liu, Ziyi Liu, Jiaqi Tang, et al.

GenEnv：LLM Agent 与环境模拟器之间的难度对齐协同进化

GenEnv：LLM Agent 与环境模拟器之间的难度对齐协同进化

Jiacheng Guo, Ling Yang, Peter Chen, et al.

WorldWarp：基于异步视频扩散的3D几何传播

WorldWarp：基于异步视频扩散的3D几何传播

Hanyang Kong, Xingyi Yang, Xiaoxu Zheng, et al.

LoGoPlanner：基于定位的度量感知视觉几何导航策略

LoGoPlanner：基于定位的度量感知视觉几何导航策略

Jiaqi Peng, Wenzhe Cai, Yuqiang Yang, et al.

LLM能否评估学生困难？基于能力模拟的师生AI难度对齐在题目难度预测中的应用

LLM能否评估学生困难？基于能力模拟的师生AI难度对齐在题目难度预测中的应用

Ming Li, Han Chen, Yunze Xiao, et al.

QuCo-RAG：基于预训练语料库量化不确定性以实现动态检索增强生成

QuCo-RAG：基于预训练语料库量化不确定性以实现动态检索增强生成

检索增强生成

Dehai Min, Kailin Zhang, Tongtong Wu, et al.

棱镜假说：通过统一自编码实现语义与像素表征的融合

棱镜假说：通过统一自编码实现语义与像素表征的融合

多模态表征

统一多模态

Weichen Fan, Haiwen Diao, Quan Wang, et al.

Med-Banana-50K：用于文本引导的医学图像编辑的跨模态大规模数据集

Med-Banana-50K：用于文本引导的医学图像编辑的跨模态大规模数据集

Zhihui Chen, Mengling Feng

Kascade：一种面向长上下文LLM推理的实用稀疏注意力方法

Kascade：一种面向长上下文LLM推理的实用稀疏注意力方法

Dhruv Deshmukh, Saurabh Goyal, Nipun Kwatra, et al.

GLM-4.5：智能体、推理与编程（ARC）基础模型

GLM-4.5：智能体、推理与编程（ARC）基础模型

GroundingME：通过多维评估揭示MLLMs中的视觉定位鸿沟

GroundingME：通过多维评估揭示MLLMs中的视觉定位鸿沟

Rang Li, Lei Li, Shuhuai Ren, et al.

语义与重构同样重要：使表示编码器适用于文本到图像生成与编辑

语义与重构同样重要：使表示编码器适用于文本到图像生成与编辑

Shilong Zhang, He Zhang, Zhifei Zhang, et al.

4D-RGPT：通过感知蒸馏实现区域级4D理解

4D-RGPT：通过感知蒸馏实现区域级4D理解

多模态表征

Chiao-An Yang, Ryo Hachiuma, Sifei Liu, et al.

Seed-Prover 1.5：通过经验学习掌握本科水平定理证明

Seed-Prover 1.5：通过经验学习掌握本科水平定理证明

Jiangjie Chen, Wenxiang Chen, Jiacheng Du, et al.

当推理遇见其法则

当推理遇见其法则

Junyu Zhang, Yifan Sun, Tianang Leng, et al.

基于科学家对齐工作流的LLM科学通用智能探究

基于科学家对齐工作流的LLM科学通用智能探究

Wanghan Xu, Yuhao Zhou, Yifan Zhou, et al.

K2-V2：一个360-开放、推理增强的LLM

K2-V2：一个360-开放、推理增强的LLM

监督式微调

Zhengzhong Liu, Liping Tang, Linghao Jin, et al.

VenusBench-GD：面向多样化定位任务的综合性多平台GUI基准

VenusBench-GD：面向多样化定位任务的综合性多平台GUI基准

Beitong Zhou, Zhexiao Huang, Yuan Guo, et al.

MCIF：来自科学演讲的多模态跨语言指令遵循基准

MCIF：来自科学演讲的多模态跨语言指令遵循基准

统一多模态

Sara Papi, Maike Züfle, Marco Gaido, et al.

NitroGen：面向通用游戏Agent的开源基础模型

NitroGen：面向通用游戏Agent的开源基础模型

计算机视觉

Loic Magne, Anas Awadalla, Guanzhi Wang, et al.

H-神经元：关于LLM中与幻觉相关的神经元的存在性、影响及其起源

H-神经元：关于LLM中与幻觉相关的神经元的存在性、影响及其起源

自然语言处理

Cheng Gao, Huimin Chen, Chaojun Xiao, et al.

世界即你的画布：通过参考图像、轨迹与文本绘制可提示事件

世界即你的画布：通过参考图像、轨迹与文本绘制可提示事件

Hanlin Wang, Hao Ouyang, Qiuyu Wang, et al.

炼金术师：通过元梯度数据选择解锁文本到图像模型训练的效率

炼金术师：通过元梯度数据选择解锁文本到图像模型训练的效率

Kaixin Ding, Yang Zhou, Xi Chen, et al.

深度任意全景图：一种全景深度估计的基础模型

深度任意全景图：一种全景深度估计的基础模型

机器视觉 3D

Xin Lin, Meixi Song, Dizhe Zhang, et al.

生成式重聚焦：从单张图像实现灵活的失焦控制

生成式重聚焦：从单张图像实现灵活的失焦控制

Chun-Wei Tuan Mu, Jia-Bin Huang, Yu-Lun Liu

StereoPilot：通过生成先验学习统一且高效的立体转换

StereoPilot：通过生成先验学习统一且高效的立体转换

Guibao Shen, Yihua Du, Wenhang Ge, et al.

下一代嵌入预测助力强大视觉学习器的构建

下一代嵌入预测助力强大视觉学习器的构建

计算机视觉

Sihan Xu, Ziqiao Ma, Wenhao Chai, et al.

Agent AI：探索多模态交互的前沿

Agent AI：探索多模态交互的前沿

Zane Durante, Qiuyuan Huang, Naoki Wake, et al.

人工智能数学家作为推动数学发现的合作伙伴——均质化理论中的案例研究

人工智能数学家作为推动数学发现的合作伙伴——均质化理论中的案例研究

Yuanhang Liu, Beichen Wang, Peng Li, et al.

GenEval 2：应对文本到图像评估中的基准漂移问题

GenEval 2：应对文本到图像评估中的基准漂移问题

Amita Kamath, Kai-Wei Chang, Ranjay Krishna, et al.