HyperAI

主区域

GPU

控制台
文档
价格

Pulse

报道

资源

论文
教程
数据集
百科

基准测试

SOTA
大语言模型（LLM）
GPU 排行榜

社区

活动

实用工具

关于服务条款隐私政策
中文

Command Palette

Search for a command to run...

HyperAI
论文

论文

每日更新的前沿人工智能研究论文,帮助您紧跟最新的人工智能趋势

学习、理解、实践，与社区一起构建人工智能的未来

关于

关于我们数据集支持

产品

报道教程数据集百科

链接

TVM 中文 Apache TVM

© HyperAI

津ICP备17010941号-1

京公网安备11010502038810号

GitHub Discord X (formerly Twitter)Bilibili

HyperAI

主区域

GPU

控制台
文档
价格

Pulse

报道

资源

论文
教程
数据集
百科

基准测试

SOTA
大语言模型（LLM）
GPU 排行榜

社区

活动

实用工具

关于服务条款隐私政策
中文

Command Palette

Search for a command to run...

HyperAI
论文

论文

每日更新的前沿人工智能研究论文,帮助您紧跟最新的人工智能趋势

学习、理解、实践，与社区一起构建人工智能的未来

关于

关于我们数据集支持

产品

报道教程数据集百科

链接

TVM 中文 Apache TVM

© HyperAI

津ICP备17010941号-1

京公网安备11010502038810号

GitHub Discord X (formerly Twitter)Bilibili

daVinci-Dev：面向软件工程的Agent原生中段训练

daVinci-Dev：面向软件工程的Agent原生中段训练

Ji Zeng, Dayuan Fu, Tiantian Mi, et al.

LLM能否帮你收拾烂摊子？基于LLM的应用就绪数据准备综述

LLM能否帮你收拾烂摊子？基于LLM的应用就绪数据准备综述

自然语言处理

Wei Zhou, Jun Zhou, Haoyu Wang, et al.

DeepSeek-OCR 2：视觉因果流

DeepSeek-OCR 2：视觉因果流

Haoran Wei, Yaofeng Sun, Yukun Li

学习测试时发现

学习测试时发现

Mert Yuksekgonul, Daniel Koceja, Xinhao Li, et al.

通过在防护输出上微调以诱发有害能力

通过在防护输出上微调以诱发有害能力

监督式微调

Jackson Kaunismaa, Avery Griffin, John Hughes, et al.

Memory-V2V：通过记忆增强视频到视频扩散模型

Memory-V2V：通过记忆增强视频到视频扩散模型

Dohun Lee, Chun-Hao Paul Huang, Xuelin Chen, et al.

推理时扩展验证：通过测试时评分标准引导的验证实现自演化深度研究Agent

推理时扩展验证：通过测试时评分标准引导的验证实现自演化深度研究Agent

Yuxuan Wan, Tianqing Fang, Zaitang Li, et al.

VisGym：面向多模态Agent的多样化、可定制化、可扩展环境

VisGym：面向多模态Agent的多样化、可定制化、可扩展环境

Zirui Wang, Junyi Zhang, Jiaxin Ge, et al.

TwinBrainVLA：通过非对称Transformer混合模型释放通用VLM在具身任务中的潜力

TwinBrainVLA：通过非对称Transformer混合模型释放通用VLM在具身任务中的潜力

机器人技术

Bin Yu, Shijie Lian, Xiaopeng Lin, et al.

SWE-Pruner：面向编码Agent的自适应上下文剪枝

SWE-Pruner：面向编码Agent的自适应上下文剪枝

Yuhang Wang, Yuling Shi, Mo Yang, et al.

LongCat-Flash-Thinking-2601 技术报告

LongCat-Flash-Thinking-2601 技术报告

Meituan LongCat Team, Anchun Gui, Bei Li, et al.

语言模型能否发现缩放定律？

语言模型能否发现缩放定律？

Haowei Lin, Haotian Ye, Wenzheng Feng, et al.

Cosmos Policy：针对视觉运动控制与规划微调视频模型

Cosmos Policy：针对视觉运动控制与规划微调视频模型

机器人技术

Moo Jin Kim, Yihuai Gao, Tsung-Yi Lin, et al.

基于表征自编码器的文本到图像扩散Transformer的扩展

基于表征自编码器的文本到图像扩散Transformer的扩展

Shengbang Tong, Boyang Zheng, Ziteng Wang, et al.

BayesianVLA：通过潜在动作查询对视觉-语言-动作模型进行贝叶斯分解

BayesianVLA：通过潜在动作查询对视觉-语言-动作模型进行贝叶斯分解

机器人技术

多模态表征

Shijie Lian, Bin Yu, Xiaopeng Lin, et al.

灵活性陷阱：为何任意顺序限制制约了扩散语言模型的推理潜力

灵活性陷阱：为何任意顺序限制制约了扩散语言模型的推理潜力

Zanlin Ni, Shenzhi Wang, Yang Yue, et al.

沙箱中的LLM激发通用代理智能

沙箱中的LLM激发通用代理智能

Daixuan Cheng, Shaohan Huang, Yuxian Gu, et al.

HERMES：将KV缓存作为分层内存以实现高效的流式视频理解

HERMES：将KV缓存作为分层内存以实现高效的流式视频理解

Haowei Zhang, Shudong Yang, Jinlan Fu, et al.

EvoCUA：通过从可扩展的合成经验中学习来演化计算机使用代理

EvoCUA：通过从可扩展的合成经验中学习来演化计算机使用代理

Taofeng Xue, Chong Peng, Mianqiu Huang, et al.

HY-MT1.5 技术报告

HY-MT1.5 技术报告

Mao Zheng, Zheng Li, Tao Chen, et al.

代码的缩放定律：每种编程语言都至关重要

代码的缩放定律：每种编程语言都至关重要

Jian Yang, Shawn Guo, Lin Jing, et al.

Qwen3_TTS 技术报告

Qwen3_TTS 技术报告

音频和语音处理

Hangrui Hu, Xinfa Zhu, Ting He, et al.

小模型，大成果：通过分解实现卓越的意图抽取

小模型，大成果：通过分解实现卓越的意图抽取

Danielle Cohen, Yoni Halpern, Noam Kahlon, et al.

LightOnOCR：一种10亿参数的端到端多语言视觉-语言模型，实现最先进的OCR性能

LightOnOCR：一种10亿参数的端到端多语言视觉-语言模型，实现最先进的OCR性能

Said Taghadouini, Adrien Cavaillès, Baptiste Aubertin

FinVault：面向执行基础环境的金融Agent安全基准测试

FinVault：面向执行基础环境的金融Agent安全基准测试

Zhi Yang, Runguo Li, Qiqi Qiang, et al.

MMDeepResearch-Bench：多模态深度研究Agent基准测试

MMDeepResearch-Bench：多模态深度研究Agent基准测试

Peizhou Huang, Zixuan Zhong, Zhongwei Wan, et al.

DARC：面向LLM演化的解耦非对称推理课程

DARC：面向LLM演化的解耦非对称推理课程

Shengda Fan, Xuyan Ye, Yankai Lin

面向具身世界的视频生成模型再思考

面向具身世界的视频生成模型再思考

Yufan Deng, Zilin Pan, Hongyu Zhang, et al.

Paper2Rebuttal：一种用于透明化作者回复辅助的多智能体框架

Paper2Rebuttal：一种用于透明化作者回复辅助的多智能体框架

检索增强生成

Qianli Ma, Chang Guo, Zhiheng Tian, et al.

LLM的智能体推理

LLM的智能体推理

Tianxin Wei, Ting-Wei Li, Zhining Liu, et al.

PERSONAPLEX：用于全双工对话语音模型的语音与角色控制

PERSONAPLEX：用于全双工对话语音模型的语音与角色控制

音频和语音处理

Rajarshi Roy, Jonathan Raiman, Sang-gil Lee, et al.

FlashLabs Chroma 1.0：具备个性化语音克隆能力的实时端到端语音对话模型

FlashLabs Chroma 1.0：具备个性化语音克隆能力的实时端到端语音对话模型

Tanyu Chen, Tairan Chen, Kai Shen, et al.

daVinci-Dev：面向软件工程的Agent原生中段训练

daVinci-Dev：面向软件工程的Agent原生中段训练

Ji Zeng, Dayuan Fu, Tiantian Mi, et al.

LLM能否帮你收拾烂摊子？基于LLM的应用就绪数据准备综述

LLM能否帮你收拾烂摊子？基于LLM的应用就绪数据准备综述

自然语言处理

Wei Zhou, Jun Zhou, Haoyu Wang, et al.

DeepSeek-OCR 2：视觉因果流

DeepSeek-OCR 2：视觉因果流

Haoran Wei, Yaofeng Sun, Yukun Li

学习测试时发现

学习测试时发现

Mert Yuksekgonul, Daniel Koceja, Xinhao Li, et al.

通过在防护输出上微调以诱发有害能力

通过在防护输出上微调以诱发有害能力

监督式微调

Jackson Kaunismaa, Avery Griffin, John Hughes, et al.

Memory-V2V：通过记忆增强视频到视频扩散模型

Memory-V2V：通过记忆增强视频到视频扩散模型

Dohun Lee, Chun-Hao Paul Huang, Xuelin Chen, et al.

推理时扩展验证：通过测试时评分标准引导的验证实现自演化深度研究Agent

推理时扩展验证：通过测试时评分标准引导的验证实现自演化深度研究Agent

Yuxuan Wan, Tianqing Fang, Zaitang Li, et al.

VisGym：面向多模态Agent的多样化、可定制化、可扩展环境

VisGym：面向多模态Agent的多样化、可定制化、可扩展环境

Zirui Wang, Junyi Zhang, Jiaxin Ge, et al.

TwinBrainVLA：通过非对称Transformer混合模型释放通用VLM在具身任务中的潜力

TwinBrainVLA：通过非对称Transformer混合模型释放通用VLM在具身任务中的潜力

机器人技术

Bin Yu, Shijie Lian, Xiaopeng Lin, et al.

SWE-Pruner：面向编码Agent的自适应上下文剪枝

SWE-Pruner：面向编码Agent的自适应上下文剪枝

Yuhang Wang, Yuling Shi, Mo Yang, et al.

LongCat-Flash-Thinking-2601 技术报告

LongCat-Flash-Thinking-2601 技术报告

Meituan LongCat Team, Anchun Gui, Bei Li, et al.

语言模型能否发现缩放定律？

语言模型能否发现缩放定律？

Haowei Lin, Haotian Ye, Wenzheng Feng, et al.

Cosmos Policy：针对视觉运动控制与规划微调视频模型

Cosmos Policy：针对视觉运动控制与规划微调视频模型

机器人技术

Moo Jin Kim, Yihuai Gao, Tsung-Yi Lin, et al.

基于表征自编码器的文本到图像扩散Transformer的扩展

基于表征自编码器的文本到图像扩散Transformer的扩展

Shengbang Tong, Boyang Zheng, Ziteng Wang, et al.

BayesianVLA：通过潜在动作查询对视觉-语言-动作模型进行贝叶斯分解

BayesianVLA：通过潜在动作查询对视觉-语言-动作模型进行贝叶斯分解

机器人技术

多模态表征

Shijie Lian, Bin Yu, Xiaopeng Lin, et al.

灵活性陷阱：为何任意顺序限制制约了扩散语言模型的推理潜力

灵活性陷阱：为何任意顺序限制制约了扩散语言模型的推理潜力

Zanlin Ni, Shenzhi Wang, Yang Yue, et al.

沙箱中的LLM激发通用代理智能

沙箱中的LLM激发通用代理智能

Daixuan Cheng, Shaohan Huang, Yuxian Gu, et al.

HERMES：将KV缓存作为分层内存以实现高效的流式视频理解

HERMES：将KV缓存作为分层内存以实现高效的流式视频理解

Haowei Zhang, Shudong Yang, Jinlan Fu, et al.

EvoCUA：通过从可扩展的合成经验中学习来演化计算机使用代理

EvoCUA：通过从可扩展的合成经验中学习来演化计算机使用代理

Taofeng Xue, Chong Peng, Mianqiu Huang, et al.

HY-MT1.5 技术报告

HY-MT1.5 技术报告

Mao Zheng, Zheng Li, Tao Chen, et al.

代码的缩放定律：每种编程语言都至关重要

代码的缩放定律：每种编程语言都至关重要

Jian Yang, Shawn Guo, Lin Jing, et al.

Qwen3_TTS 技术报告

Qwen3_TTS 技术报告

音频和语音处理

Hangrui Hu, Xinfa Zhu, Ting He, et al.

小模型，大成果：通过分解实现卓越的意图抽取

小模型，大成果：通过分解实现卓越的意图抽取

Danielle Cohen, Yoni Halpern, Noam Kahlon, et al.

LightOnOCR：一种10亿参数的端到端多语言视觉-语言模型，实现最先进的OCR性能

LightOnOCR：一种10亿参数的端到端多语言视觉-语言模型，实现最先进的OCR性能

Said Taghadouini, Adrien Cavaillès, Baptiste Aubertin

FinVault：面向执行基础环境的金融Agent安全基准测试

FinVault：面向执行基础环境的金融Agent安全基准测试

Zhi Yang, Runguo Li, Qiqi Qiang, et al.

MMDeepResearch-Bench：多模态深度研究Agent基准测试

MMDeepResearch-Bench：多模态深度研究Agent基准测试

Peizhou Huang, Zixuan Zhong, Zhongwei Wan, et al.

DARC：面向LLM演化的解耦非对称推理课程

DARC：面向LLM演化的解耦非对称推理课程

Shengda Fan, Xuyan Ye, Yankai Lin

面向具身世界的视频生成模型再思考

面向具身世界的视频生成模型再思考

Yufan Deng, Zilin Pan, Hongyu Zhang, et al.

Paper2Rebuttal：一种用于透明化作者回复辅助的多智能体框架

Paper2Rebuttal：一种用于透明化作者回复辅助的多智能体框架

检索增强生成

Qianli Ma, Chang Guo, Zhiheng Tian, et al.

LLM的智能体推理

LLM的智能体推理

Tianxin Wei, Ting-Wei Li, Zhining Liu, et al.

PERSONAPLEX：用于全双工对话语音模型的语音与角色控制

PERSONAPLEX：用于全双工对话语音模型的语音与角色控制

音频和语音处理

Rajarshi Roy, Jonathan Raiman, Sang-gil Lee, et al.

FlashLabs Chroma 1.0：具备个性化语音克隆能力的实时端到端语音对话模型

FlashLabs Chroma 1.0：具备个性化语音克隆能力的实时端到端语音对话模型

Tanyu Chen, Tairan Chen, Kai Shen, et al.