HyperAI

主区域

GPU

控制台
文档
价格

Pulse

报道

资源

论文
教程
数据集
百科

基准测试

SOTA
大语言模型（LLM）
GPU 排行榜

社区

活动

实用工具

关于服务条款隐私政策
中文

Command Palette

Search for a command to run...

HyperAI
论文

论文

每日更新的前沿人工智能研究论文,帮助您紧跟最新的人工智能趋势

学习、理解、实践，与社区一起构建人工智能的未来

关于

关于我们数据集支持

产品

报道教程数据集百科

链接

TVM 中文 Apache TVM

© HyperAI

津ICP备17010941号-1

京公网安备11010502038810号

GitHub Discord X (formerly Twitter)Bilibili

HyperAI

主区域

GPU

控制台
文档
价格

Pulse

报道

资源

论文
教程
数据集
百科

基准测试

SOTA
大语言模型（LLM）
GPU 排行榜

社区

活动

实用工具

关于服务条款隐私政策
中文

Command Palette

Search for a command to run...

HyperAI
论文

论文

每日更新的前沿人工智能研究论文,帮助您紧跟最新的人工智能趋势

学习、理解、实践，与社区一起构建人工智能的未来

关于

关于我们数据集支持

产品

报道教程数据集百科

链接

TVM 中文 Apache TVM

© HyperAI

津ICP备17010941号-1

京公网安备11010502038810号

GitHub Discord X (formerly Twitter)Bilibili

Yume-1.5：一种文本控制的交互式世界生成模型

Yume-1.5：一种文本控制的交互式世界生成模型

Xiaofeng Mao, Zhen Li, Chuanhao Li, et al.

LiveTalk：通过改进的自洽蒸馏实现实时多模态交互式视频扩散

LiveTalk：通过改进的自洽蒸馏实现实时多模态交互式视频扩散

Ethan Chern, Zhulin Hu, Bohao Tang, et al.

通过辅助损失实现专家与路由器在专家混合模型中的耦合

通过辅助损失实现专家与路由器在专家混合模型中的耦合

Ang Lv, Jin Ma, Yiyuan Ma, et al.

LongFly：基于时空上下文融合的长时程无人机视觉-语言导航

LongFly：基于时空上下文融合的长时程无人机视觉-语言导航

机器人技术

Wen Jiang, Li Wang, Kangyao Huang, et al.

注意力并非你所需要的

注意力并非你所需要的

SlideTailor：面向科学论文的个性化演示文稿生成

SlideTailor：面向科学论文的个性化演示文稿生成

Wenzheng Zeng, Mingyu Ouyang, Langyuan Cui, et al.

InSight-o3：通过泛化视觉搜索赋能多模态基础模型

InSight-o3：通过泛化视觉搜索赋能多模态基础模型

多模态表征

Kaican Li, Lewei Yao, Jiannan Wu, et al.

InsertAnywhere：连接4D场景几何与扩散模型以实现逼真的视频物体插入

InsertAnywhere：连接4D场景几何与扩散模型以实现逼真的视频物体插入

Hoiyeong Jin, Hyojin Jang, Jeongho Kim, et al.

面向心智地图感知的检索增强生成以提升长上下文理解

面向心智地图感知的检索增强生成以提升长上下文理解

检索增强生成

Yuqing Li, Jiangnan Li, Zheng Lin, et al.

衡量大语言模型中短文本的真实性

衡量大语言模型中短文本的真实性

Jason Wei, Nguyen Karina, Hyung Won Chung, et al.

DeepSearchQA：弥合深度研究Agent的全面性差距

DeepSearchQA：弥合深度研究Agent的全面性差距

Nikita Gupta, Riju Chatterjee, Lukas Haas, et al.

MEM1：学习协同记忆与推理以实现高效长时程Agent

MEM1：学习协同记忆与推理以实现高效长时程Agent

Zijian Zhou, Ao Qu, Zhaoxuan Wu, et al.

AI-Trader：在实时金融市场的自主Agent基准测试

AI-Trader：在实时金融市场的自主Agent基准测试

Tianyu Fan, Yuhao Yang, Yangqin Jiang, et al.

潜在隐式视觉推理

潜在隐式视觉推理

多模态表征

Kelvin Li, Chuyi Shang, Leonid Karlinsky, et al.

LLM人格作为方法基准测试中实地实验的替代方案

LLM人格作为方法基准测试中实地实验的替代方案

Enoch Hyunwook Kang

DataFlow：一种面向以数据为中心的人工智能时代的统一数据准备与工作流自动化框架

DataFlow：一种面向以数据为中心的人工智能时代的统一数据准备与工作流自动化框架

检索增强生成

Hao Liang, Xiaochen Ma, Zhou Liu, et al.

HiStream：通过冗余消除流式传输实现高效高分辨率视频生成

HiStream：通过冗余消除流式传输实现高效高分辨率视频生成

Haonan Qiu, Shikun Liu, Zijian Zhou, et al.

TokSuite：衡量分词器选择对语言模型行为的影响

TokSuite：衡量分词器选择对语言模型行为的影响

Gül Sena Altıntaş, Malikeh Ehghaghi, Brian Lester, et al.

Nemotron 3 Nano：面向智能体推理的开源、高效混合专家Mamba-Transformer模型

Nemotron 3 Nano：面向智能体推理的开源、高效混合专家Mamba-Transformer模型

监督式微调

NVIDIA, Aaron Blakeman, Aaron Grattafiori, et al.

超越记忆：一种多模态序数回归基准以揭示视觉-语言模型中的流行度偏差

超越记忆：一种多模态序数回归基准以揭示视觉-语言模型中的流行度偏差

Li-Zhong Szu-Tu, Ting-Lin Wu, Chia-Jui Chang, et al.

DreaMontage：任意帧引导的单次视频生成

DreaMontage：任意帧引导的单次视频生成

Jiawei Liu, Junqiao Li, Jiangfan Deng, et al.

T2AV-Compass：面向文本到音频视频生成的统一评估

T2AV-Compass：面向文本到音频视频生成的统一评估

统一多模态

Zhe Cao, Tao Wang, Jiaming Wang, et al.

TongSIM：一种用于模拟智能机器的通用平台

TongSIM：一种用于模拟智能机器的通用平台

Zhe Sun, Kunlun Wu, Chuanjian Fu, et al.

Qwen-Image-Layered：通过层分解实现固有可编辑性

Qwen-Image-Layered：通过层分解实现固有可编辑性

Shengming Yin, Zekai Zhang, Zecheng Tang, et al.

RoboSafe：通过可执行安全逻辑保障具身Agent的安全

RoboSafe：通过可执行安全逻辑保障具身Agent的安全

机器人技术

Le Wang, Zonghao Ying, Xiao Yang, et al.

NHS基层医疗中LLM药物安全审查的现实世界评估

NHS基层医疗中LLM药物安全审查的现实世界评估

自然语言处理

Oliver Normand, Esther Borsi, Mitch Fruin, et al.

多LLM主题分析结合双重可靠性度量：基于Cohen's Kappa与语义相似性的定性研究验证

多LLM主题分析结合双重可靠性度量：基于Cohen's Kappa与语义相似性的定性研究验证

自然语言处理

Nilesh Jain, Seyi Adeyinka, Leor Roseman, et al.

通过闭环世界建模实现视频虚拟人中的主动智能

通过闭环世界建模实现视频虚拟人中的主动智能

Xuanhua He, Tianyu Yang, Ke Cao, et al.

FaithLens：检测与解释忠实性幻觉

FaithLens：检测与解释忠实性幻觉

检索增强生成

监督式微调

Shuzheng Si, Qingyi Wang, Haozhe Zhao, et al.

SAM Audio：音频中的任意分割

SAM Audio：音频中的任意分割

统一多模态

Bowen Shi, Andros Tjandra, John Hoffman, et al.

Step-DeepResearch 技术报告

Step-DeepResearch 技术报告

监督式微调

Chen Hu, Haikuo Du, Heng Wang, et al.

SpatialTree：空间能力在MLLMs中的分支发展

SpatialTree：空间能力在MLLMs中的分支发展

Yuxi Xiao, Longfei Li, Shen Yan, et al.

Yume-1.5：一种文本控制的交互式世界生成模型

Yume-1.5：一种文本控制的交互式世界生成模型

Xiaofeng Mao, Zhen Li, Chuanhao Li, et al.

LiveTalk：通过改进的自洽蒸馏实现实时多模态交互式视频扩散

LiveTalk：通过改进的自洽蒸馏实现实时多模态交互式视频扩散

Ethan Chern, Zhulin Hu, Bohao Tang, et al.

通过辅助损失实现专家与路由器在专家混合模型中的耦合

通过辅助损失实现专家与路由器在专家混合模型中的耦合

Ang Lv, Jin Ma, Yiyuan Ma, et al.

LongFly：基于时空上下文融合的长时程无人机视觉-语言导航

LongFly：基于时空上下文融合的长时程无人机视觉-语言导航

机器人技术

Wen Jiang, Li Wang, Kangyao Huang, et al.

注意力并非你所需要的

注意力并非你所需要的

SlideTailor：面向科学论文的个性化演示文稿生成

SlideTailor：面向科学论文的个性化演示文稿生成

Wenzheng Zeng, Mingyu Ouyang, Langyuan Cui, et al.

InSight-o3：通过泛化视觉搜索赋能多模态基础模型

InSight-o3：通过泛化视觉搜索赋能多模态基础模型

多模态表征

Kaican Li, Lewei Yao, Jiannan Wu, et al.

InsertAnywhere：连接4D场景几何与扩散模型以实现逼真的视频物体插入

InsertAnywhere：连接4D场景几何与扩散模型以实现逼真的视频物体插入

Hoiyeong Jin, Hyojin Jang, Jeongho Kim, et al.

面向心智地图感知的检索增强生成以提升长上下文理解

面向心智地图感知的检索增强生成以提升长上下文理解

检索增强生成

Yuqing Li, Jiangnan Li, Zheng Lin, et al.

衡量大语言模型中短文本的真实性

衡量大语言模型中短文本的真实性

Jason Wei, Nguyen Karina, Hyung Won Chung, et al.

DeepSearchQA：弥合深度研究Agent的全面性差距

DeepSearchQA：弥合深度研究Agent的全面性差距

Nikita Gupta, Riju Chatterjee, Lukas Haas, et al.

MEM1：学习协同记忆与推理以实现高效长时程Agent

MEM1：学习协同记忆与推理以实现高效长时程Agent

Zijian Zhou, Ao Qu, Zhaoxuan Wu, et al.

AI-Trader：在实时金融市场的自主Agent基准测试

AI-Trader：在实时金融市场的自主Agent基准测试

Tianyu Fan, Yuhao Yang, Yangqin Jiang, et al.

潜在隐式视觉推理

潜在隐式视觉推理

多模态表征

Kelvin Li, Chuyi Shang, Leonid Karlinsky, et al.

LLM人格作为方法基准测试中实地实验的替代方案

LLM人格作为方法基准测试中实地实验的替代方案

Enoch Hyunwook Kang

DataFlow：一种面向以数据为中心的人工智能时代的统一数据准备与工作流自动化框架

DataFlow：一种面向以数据为中心的人工智能时代的统一数据准备与工作流自动化框架

检索增强生成

Hao Liang, Xiaochen Ma, Zhou Liu, et al.

HiStream：通过冗余消除流式传输实现高效高分辨率视频生成

HiStream：通过冗余消除流式传输实现高效高分辨率视频生成

Haonan Qiu, Shikun Liu, Zijian Zhou, et al.

TokSuite：衡量分词器选择对语言模型行为的影响

TokSuite：衡量分词器选择对语言模型行为的影响

Gül Sena Altıntaş, Malikeh Ehghaghi, Brian Lester, et al.

Nemotron 3 Nano：面向智能体推理的开源、高效混合专家Mamba-Transformer模型

Nemotron 3 Nano：面向智能体推理的开源、高效混合专家Mamba-Transformer模型

监督式微调

NVIDIA, Aaron Blakeman, Aaron Grattafiori, et al.

超越记忆：一种多模态序数回归基准以揭示视觉-语言模型中的流行度偏差

超越记忆：一种多模态序数回归基准以揭示视觉-语言模型中的流行度偏差

Li-Zhong Szu-Tu, Ting-Lin Wu, Chia-Jui Chang, et al.

DreaMontage：任意帧引导的单次视频生成

DreaMontage：任意帧引导的单次视频生成

Jiawei Liu, Junqiao Li, Jiangfan Deng, et al.

T2AV-Compass：面向文本到音频视频生成的统一评估

T2AV-Compass：面向文本到音频视频生成的统一评估

统一多模态

Zhe Cao, Tao Wang, Jiaming Wang, et al.

TongSIM：一种用于模拟智能机器的通用平台

TongSIM：一种用于模拟智能机器的通用平台

Zhe Sun, Kunlun Wu, Chuanjian Fu, et al.

Qwen-Image-Layered：通过层分解实现固有可编辑性

Qwen-Image-Layered：通过层分解实现固有可编辑性

Shengming Yin, Zekai Zhang, Zecheng Tang, et al.

RoboSafe：通过可执行安全逻辑保障具身Agent的安全

RoboSafe：通过可执行安全逻辑保障具身Agent的安全

机器人技术

Le Wang, Zonghao Ying, Xiao Yang, et al.

NHS基层医疗中LLM药物安全审查的现实世界评估

NHS基层医疗中LLM药物安全审查的现实世界评估

自然语言处理

Oliver Normand, Esther Borsi, Mitch Fruin, et al.

多LLM主题分析结合双重可靠性度量：基于Cohen's Kappa与语义相似性的定性研究验证

多LLM主题分析结合双重可靠性度量：基于Cohen's Kappa与语义相似性的定性研究验证

自然语言处理

Nilesh Jain, Seyi Adeyinka, Leor Roseman, et al.

通过闭环世界建模实现视频虚拟人中的主动智能

通过闭环世界建模实现视频虚拟人中的主动智能

Xuanhua He, Tianyu Yang, Ke Cao, et al.

FaithLens：检测与解释忠实性幻觉

FaithLens：检测与解释忠实性幻觉

检索增强生成

监督式微调

Shuzheng Si, Qingyi Wang, Haozhe Zhao, et al.

SAM Audio：音频中的任意分割

SAM Audio：音频中的任意分割

统一多模态

Bowen Shi, Andros Tjandra, John Hoffman, et al.

Step-DeepResearch 技术报告

Step-DeepResearch 技术报告

监督式微调

Chen Hu, Haikuo Du, Heng Wang, et al.

SpatialTree：空间能力在MLLMs中的分支发展

SpatialTree：空间能力在MLLMs中的分支发展

Yuxi Xiao, Longfei Li, Shen Yan, et al.