HyperAI

主区域

GPU

控制台
文档
价格

Pulse

报道

资源

论文
教程
数据集
百科

基准测试

SOTA
大语言模型（LLM）
GPU 排行榜

社区

活动

实用工具

关于服务条款隐私政策
中文

Command Palette

Search for a command to run...

HyperAI
论文

论文

每日更新的前沿人工智能研究论文,帮助您紧跟最新的人工智能趋势

学习、理解、实践，与社区一起构建人工智能的未来

关于

关于我们数据集支持

产品

报道教程数据集百科

链接

TVM 中文 Apache TVM

© HyperAI

津ICP备17010941号-1

京公网安备11010502038810号

GitHub Discord X (formerly Twitter)Bilibili

HyperAI

主区域

GPU

控制台
文档
价格

Pulse

报道

资源

论文
教程
数据集
百科

基准测试

SOTA
大语言模型（LLM）
GPU 排行榜

社区

活动

实用工具

关于服务条款隐私政策
中文

Command Palette

Search for a command to run...

HyperAI
论文

论文

每日更新的前沿人工智能研究论文,帮助您紧跟最新的人工智能趋势

学习、理解、实践，与社区一起构建人工智能的未来

关于

关于我们数据集支持

产品

报道教程数据集百科

链接

TVM 中文 Apache TVM

© HyperAI

津ICP备17010941号-1

京公网安备11010502038810号

GitHub Discord X (formerly Twitter)Bilibili

EmoNet-Voice：用于语音情感检测的细粒度、专家验证基准数据集

EmoNet-Voice：用于语音情感检测的细粒度、专家验证基准数据集

Christoph Schuhmann, Robert Kaczmarczyk, Gollam Rabby, et al.

s1：简单测试时缩放

s1：简单测试时缩放

监督式微调

Niklas Muennighoff, Zitong Yang, Weijia Shi, et al.

Search-o1：代理增强型搜索大推理模型

Search-o1：代理增强型搜索大推理模型

检索增强生成

Xiaoxi Li, Guanting Dong, Jiajie Jin, et al.

LLaVA-Mini：仅用一个视觉token实现高效图像与视频大型多模态模型

LLaVA-Mini：仅用一个视觉token实现高效图像与视频大型多模态模型

统一多模态

Shaolei Zhang, Qingkai Fang, Zhe Yang, et al.

MAmmoTH-VL：通过大规模指令微调激发多模态推理

MAmmoTH-VL：通过大规模指令微调激发多模态推理

Jarvis Guo, Tuney Zheng, Yuelin Bai, et al.

ShowUI：面向GUI视觉Agent的统一视觉-语言-动作模型

ShowUI：面向GUI视觉Agent的统一视觉-语言-动作模型

Kevin Qinghong Lin, Linjie Li, Difei Gao, et al.

OS-ATLAS：用于通用GUI Agent的基础动作模型

OS-ATLAS：用于通用GUI Agent的基础动作模型

Zhiyong Wu, Zhenyu Wu, Fangzhi Xu, et al.

GPT-4o 系统卡

GPT-4o 系统卡

统一多模态

OpenAI, Aaron Hurst, Adam Lerer, et al.

SAM2Long：通过无训练记忆树增强SAM 2的长视频分割能力

SAM2Long：通过无训练记忆树增强SAM 2的长视频分割能力

Shuangrui Ding, Rui Qian, Xiaoyi Dong, et al.

Aria：一个开放的多模态原生专家混合模型

Aria：一个开放的多模态原生专家混合模型

统一多模态

Dongxu Li, Yudong Liu, Haoning Wu, et al.

Qwen2-VL：在任意分辨率下提升视觉-语言模型对世界的感知能力

Qwen2-VL：在任意分辨率下提升视觉-语言模型对世界的感知能力

统一多模态

Peng Wang, Shuai Bai, Sinan Tan, et al.

VGGT：视觉几何接地 Transformer

VGGT：视觉几何接地 Transformer

机器视觉 3D

Jianyuan Wang, Minghao Chen, Nikita Karaev, et al.

通过单步奖励实现多轮代码生成

通过单步奖励实现多轮代码生成

Arnav Kumar Jain, Gonzalo Gonzalez-Pumariega, Wayne Chen, et al.

重新审视大型语言模型的组合泛化能力及其指令遵循能力

重新审视大型语言模型的组合泛化能力及其指令遵循能力

Yusuke Sakai, Hidetaka Kamigaito, Taro Watanabe

具身网络代理：弥合物理-数字领域以实现集成代理智能

具身网络代理：弥合物理-数字领域以实现集成代理智能

Yining Hong, Rui Sun, Bingxuan Li, et al.

语义感知奖励在自由形式生成中的开放式R1训练

语义感知奖励在自由形式生成中的开放式R1训练

Zongxia Li, Yapei Chang, Yuhang Zhou, et al.

BUT系统用于MLC-SLM挑战赛

BUT系统用于MLC-SLM挑战赛

音频和语音处理

多任务学习

Alexander Polok, Jiangyu Han, Dominik Klement, et al.

GenRecal：从大模型到小模型的重新校准生成视觉-语言模型

GenRecal：从大模型到小模型的重新校准生成视觉-语言模型

统一多模态

Byung-Kwan Lee, Ryo Hachiuma, Yong Man Ro, et al.

ProtoReasoning：原型作为LLM中可泛化推理的基础

ProtoReasoning：原型作为LLM中可泛化推理的基础

Feng He, Zijun Chen, Xinnian Liang, et al.

Sekai：一个面向世界探索的视频数据集

Sekai：一个面向世界探索的视频数据集

Zhen Li, Chuanhao Li, Xiaofeng Mao, et al.

基于数据驱动的二次与天然胶凝前驱体材料筛选

基于数据驱动的二次与天然胶凝前驱体材料筛选

Soroush Mahjoubi, Vineeth Venugopal, Ipek Bensu Manav, et al.

QFFT，无问题微调以适应推理

QFFT，无问题微调以适应推理

监督式微调

Wanlong Liu, Junxiao Xu, Fei Yu, et al.

大语言模型能否生成高质量的算法问题测试用例？
TestCase-Eval：故障覆盖率和暴露的系统性评估

大语言模型能否生成高质量的算法问题测试用例？ TestCase-Eval：故障覆盖率和暴露的系统性评估

Zheyuan Yang, Zexi Kuang, Xue Xia, et al.

AceReason-Nemotron 1.1：通过SFT和RL协同效应推进数学和代码推理

AceReason-Nemotron 1.1：通过SFT和RL协同效应推进数学和代码推理

监督式微调

Zihan Liu, Zhuolin Yang, Yang Chen, et al.

Stream-Omni：基于大型语言-视觉-语音模型的同步多模态交互

Stream-Omni：基于大型语言-视觉-语音模型的同步多模态交互

统一多模态

Shaolei Zhang, Shoutao Guo, Qingkai Fang, et al.

通过强化学习实现高效的医学VIE

通过强化学习实现高效的医学VIE

Lijun Liu, Ruiyang Li, Zhaocheng Liu, et al.

扩展测试时计算以适应LLM代理

扩展测试时计算以适应LLM代理

King Zhu, Hanhao Li, Siwei Wu, et al.

迭代转录因子筛选可实现从人类诱导多能干细胞（iPSC）中快速生成类小胶质细胞

迭代转录因子筛选可实现从人类诱导多能干细胞（iPSC）中快速生成类小胶质细胞

Songlei Liu, Li Li, Fan Zhang, et al.

TaskCraft：代理任务的自动化生成

TaskCraft：代理任务的自动化生成

Shi, Dingfeng, Cao, et al.

等一下，我们不需要“等待”！移除思考标记可提高推理效率

等一下，我们不需要“等待”！移除思考标记可提高推理效率

Wang, Chenlong, Feng, et al.

Ego-R1：用于超长第一人称视频推理的工具链思维

Ego-R1：用于超长第一人称视频推理的工具链思维

Shulin Tian, Ruiqi Wang, Hongming Guo, et al.

DeepResearch Bench：深度研究代理的全面基准测试

DeepResearch Bench：深度研究代理的全面基准测试

Mingxuan Du, Benfeng Xu, Chiwei Zhu, et al.

EmoNet-Voice：用于语音情感检测的细粒度、专家验证基准数据集

EmoNet-Voice：用于语音情感检测的细粒度、专家验证基准数据集

Christoph Schuhmann, Robert Kaczmarczyk, Gollam Rabby, et al.

s1：简单测试时缩放

s1：简单测试时缩放

监督式微调

Niklas Muennighoff, Zitong Yang, Weijia Shi, et al.

Search-o1：代理增强型搜索大推理模型

Search-o1：代理增强型搜索大推理模型

检索增强生成

Xiaoxi Li, Guanting Dong, Jiajie Jin, et al.

LLaVA-Mini：仅用一个视觉token实现高效图像与视频大型多模态模型

LLaVA-Mini：仅用一个视觉token实现高效图像与视频大型多模态模型

统一多模态

Shaolei Zhang, Qingkai Fang, Zhe Yang, et al.

MAmmoTH-VL：通过大规模指令微调激发多模态推理

MAmmoTH-VL：通过大规模指令微调激发多模态推理

Jarvis Guo, Tuney Zheng, Yuelin Bai, et al.

ShowUI：面向GUI视觉Agent的统一视觉-语言-动作模型

ShowUI：面向GUI视觉Agent的统一视觉-语言-动作模型

Kevin Qinghong Lin, Linjie Li, Difei Gao, et al.

OS-ATLAS：用于通用GUI Agent的基础动作模型

OS-ATLAS：用于通用GUI Agent的基础动作模型

Zhiyong Wu, Zhenyu Wu, Fangzhi Xu, et al.

GPT-4o 系统卡

GPT-4o 系统卡

统一多模态

OpenAI, Aaron Hurst, Adam Lerer, et al.

SAM2Long：通过无训练记忆树增强SAM 2的长视频分割能力

SAM2Long：通过无训练记忆树增强SAM 2的长视频分割能力

Shuangrui Ding, Rui Qian, Xiaoyi Dong, et al.

Aria：一个开放的多模态原生专家混合模型

Aria：一个开放的多模态原生专家混合模型

统一多模态

Dongxu Li, Yudong Liu, Haoning Wu, et al.

Qwen2-VL：在任意分辨率下提升视觉-语言模型对世界的感知能力

Qwen2-VL：在任意分辨率下提升视觉-语言模型对世界的感知能力

统一多模态

Peng Wang, Shuai Bai, Sinan Tan, et al.

VGGT：视觉几何接地 Transformer

VGGT：视觉几何接地 Transformer

机器视觉 3D

Jianyuan Wang, Minghao Chen, Nikita Karaev, et al.

通过单步奖励实现多轮代码生成

通过单步奖励实现多轮代码生成

Arnav Kumar Jain, Gonzalo Gonzalez-Pumariega, Wayne Chen, et al.

重新审视大型语言模型的组合泛化能力及其指令遵循能力

重新审视大型语言模型的组合泛化能力及其指令遵循能力

Yusuke Sakai, Hidetaka Kamigaito, Taro Watanabe

具身网络代理：弥合物理-数字领域以实现集成代理智能

具身网络代理：弥合物理-数字领域以实现集成代理智能

Yining Hong, Rui Sun, Bingxuan Li, et al.

语义感知奖励在自由形式生成中的开放式R1训练

语义感知奖励在自由形式生成中的开放式R1训练

Zongxia Li, Yapei Chang, Yuhang Zhou, et al.

BUT系统用于MLC-SLM挑战赛

BUT系统用于MLC-SLM挑战赛

音频和语音处理

多任务学习

Alexander Polok, Jiangyu Han, Dominik Klement, et al.

GenRecal：从大模型到小模型的重新校准生成视觉-语言模型

GenRecal：从大模型到小模型的重新校准生成视觉-语言模型

统一多模态

Byung-Kwan Lee, Ryo Hachiuma, Yong Man Ro, et al.

ProtoReasoning：原型作为LLM中可泛化推理的基础

ProtoReasoning：原型作为LLM中可泛化推理的基础

Feng He, Zijun Chen, Xinnian Liang, et al.

Sekai：一个面向世界探索的视频数据集

Sekai：一个面向世界探索的视频数据集

Zhen Li, Chuanhao Li, Xiaofeng Mao, et al.

基于数据驱动的二次与天然胶凝前驱体材料筛选

基于数据驱动的二次与天然胶凝前驱体材料筛选

Soroush Mahjoubi, Vineeth Venugopal, Ipek Bensu Manav, et al.

QFFT，无问题微调以适应推理

QFFT，无问题微调以适应推理

监督式微调

Wanlong Liu, Junxiao Xu, Fei Yu, et al.

大语言模型能否生成高质量的算法问题测试用例？
TestCase-Eval：故障覆盖率和暴露的系统性评估

大语言模型能否生成高质量的算法问题测试用例？ TestCase-Eval：故障覆盖率和暴露的系统性评估

Zheyuan Yang, Zexi Kuang, Xue Xia, et al.

AceReason-Nemotron 1.1：通过SFT和RL协同效应推进数学和代码推理

AceReason-Nemotron 1.1：通过SFT和RL协同效应推进数学和代码推理

监督式微调

Zihan Liu, Zhuolin Yang, Yang Chen, et al.

Stream-Omni：基于大型语言-视觉-语音模型的同步多模态交互

Stream-Omni：基于大型语言-视觉-语音模型的同步多模态交互

统一多模态

Shaolei Zhang, Shoutao Guo, Qingkai Fang, et al.

通过强化学习实现高效的医学VIE

通过强化学习实现高效的医学VIE

Lijun Liu, Ruiyang Li, Zhaocheng Liu, et al.

扩展测试时计算以适应LLM代理

扩展测试时计算以适应LLM代理

King Zhu, Hanhao Li, Siwei Wu, et al.

迭代转录因子筛选可实现从人类诱导多能干细胞（iPSC）中快速生成类小胶质细胞

迭代转录因子筛选可实现从人类诱导多能干细胞（iPSC）中快速生成类小胶质细胞

Songlei Liu, Li Li, Fan Zhang, et al.

TaskCraft：代理任务的自动化生成

TaskCraft：代理任务的自动化生成

Shi, Dingfeng, Cao, et al.

等一下，我们不需要“等待”！移除思考标记可提高推理效率

等一下，我们不需要“等待”！移除思考标记可提高推理效率

Wang, Chenlong, Feng, et al.

Ego-R1：用于超长第一人称视频推理的工具链思维

Ego-R1：用于超长第一人称视频推理的工具链思维

Shulin Tian, Ruiqi Wang, Hongming Guo, et al.

DeepResearch Bench：深度研究代理的全面基准测试

DeepResearch Bench：深度研究代理的全面基准测试

Mingxuan Du, Benfeng Xu, Chiwei Zhu, et al.