HyperAI
HyperAI
主区域
首页
GPU
控制台
文档
价格
Pulse
报道
资源
论文
教程
数据集
百科
基准测试
SOTA
大语言模型(LLM)
GPU 排行榜
社区
活动
开源
实用工具
搜索
关于
服务条款
隐私政策
中文
HyperAI
HyperAI
Toggle Sidebar
⌘
K
Command Palette
Search for a command to run...
登录
HyperAI
论文
论文
每日更新的前沿人工智能研究论文,帮助您紧跟最新的人工智能趋势
HyperAI
HyperAI
主区域
首页
GPU
控制台
文档
价格
Pulse
报道
资源
论文
教程
数据集
百科
基准测试
SOTA
大语言模型(LLM)
GPU 排行榜
社区
活动
开源
实用工具
搜索
关于
服务条款
隐私政策
中文
HyperAI
HyperAI
Toggle Sidebar
⌘
K
Command Palette
Search for a command to run...
登录
HyperAI
论文
论文
每日更新的前沿人工智能研究论文,帮助您紧跟最新的人工智能趋势
EmoNet-Voice:用于语音情感检测的细粒度、专家验证基准数据集
情绪识别
数据集
Christoph Schuhmann, Robert Kaczmarczyk, Gollam Rabby, et al.
s1:简单测试时缩放
监督式微调
推理
Niklas Muennighoff, Zitong Yang, Weijia Shi, et al.
Search-o1:代理增强型搜索大推理模型
检索增强生成
Agent
Xiaoxi Li, Guanting Dong, Jiajie Jin, et al.
LLaVA-Mini:仅用一个视觉token实现高效图像与视频大型多模态模型
多模态
统一多模态
Shaolei Zhang, Qingkai Fang, Zhe Yang, et al.
MAmmoTH-VL:通过大规模指令微调激发多模态推理
多模态
推理
Jarvis Guo, Tuney Zheng, Yuelin Bai, et al.
ShowUI:面向GUI视觉Agent的统一视觉-语言-动作模型
多模态
图像理解
Kevin Qinghong Lin, Linjie Li, Difei Gao, et al.
OS-ATLAS:用于通用GUI Agent的基础动作模型
Agent
数据集
Zhiyong Wu, Zhenyu Wu, Fangzhi Xu, et al.
GPT-4o 系统卡
多模态
统一多模态
OpenAI, Aaron Hurst, Adam Lerer, et al.
SAM2Long:通过无训练记忆树增强SAM 2的长视频分割能力
语义分割
目标跟踪
Shuangrui Ding, Rui Qian, Xiaoyi Dong, et al.
Aria:一个开放的多模态原生专家混合模型
多模态
统一多模态
Dongxu Li, Yudong Liu, Haoning Wu, et al.
Qwen2-VL:在任意分辨率下提升视觉-语言模型对世界的感知能力
多模态
统一多模态
Peng Wang, Shuai Bai, Sinan Tan, et al.
VGGT:视觉几何接地 Transformer
机器视觉 3D
深度估计
Jianyuan Wang, Minghao Chen, Nikita Karaev, et al.
通过单步奖励实现多轮代码生成
代码生成
强化学习
Arnav Kumar Jain, Gonzalo Gonzalez-Pumariega, Wayne Chen, et al.
重新审视大型语言模型的组合泛化能力及其指令遵循能力
LLM
基准
Yusuke Sakai, Hidetaka Kamigaito, Taro Watanabe
具身网络代理:弥合物理-数字领域以实现集成代理智能
具身智能
推理
Yining Hong, Rui Sun, Bingxuan Li, et al.
语义感知奖励在自由形式生成中的开放式R1训练
偏好
文本生成
Zongxia Li, Yapei Chang, Yuhang Zhou, et al.
BUT系统用于MLC-SLM挑战赛
音频和语音处理
多任务学习
Alexander Polok, Jiangyu Han, Dominik Klement, et al.
GenRecal:从大模型到小模型的重新校准生成视觉-语言模型
统一多模态
LLM
Byung-Kwan Lee, Ryo Hachiuma, Yong Man Ro, et al.
ProtoReasoning:原型作为LLM中可泛化推理的基础
LLM
推理
Feng He, Zijun Chen, Xinnian Liang, et al.
Sekai:一个面向世界探索的视频数据集
视频理解
视频描述
Zhen Li, Chuanhao Li, Xiaofeng Mao, et al.
基于数据驱动的二次与天然胶凝前驱体材料筛选
AI for Science
深度学习
Soroush Mahjoubi, Vineeth Venugopal, Ipek Bensu Manav, et al.
QFFT,无问题微调以适应推理
监督式微调
推理
Wanlong Liu, Junxiao Xu, Fei Yu, et al.
大语言模型能否生成高质量的算法问题测试用例? TestCase-Eval:故障覆盖率和暴露的系统性评估
LLM
代码生成
Zheyuan Yang, Zexi Kuang, Xue Xia, et al.
AceReason-Nemotron 1.1:通过SFT和RL协同效应推进数学和代码推理
监督式微调
基准
Zihan Liu, Zhuolin Yang, Yang Chen, et al.
Stream-Omni:基于大型语言-视觉-语音模型的同步多模态交互
多模态
统一多模态
Shaolei Zhang, Shoutao Guo, Qingkai Fang, et al.
通过强化学习实现高效的医学VIE
文档理解
多模态
Lijun Liu, Ruiyang Li, Zhaocheng Liu, et al.
扩展测试时计算以适应LLM代理
Agent
推理
King Zhu, Hanhao Li, Siwei Wu, et al.
迭代转录因子筛选可实现从人类诱导多能干细胞(iPSC)中快速生成类小胶质细胞
基因组学
分子网络
Songlei Liu, Li Li, Fan Zhang, et al.
TaskCraft:代理任务的自动化生成
Agent
推理
Shi, Dingfeng, Cao, et al.
等一下,我们不需要“等待”!移除思考标记可提高推理效率
推理
多模态
Wang, Chenlong, Feng, et al.
Ego-R1:用于超长第一人称视频推理的工具链思维
视频理解
推理
Shulin Tian, Ruiqi Wang, Hongming Guo, et al.
DeepResearch Bench:深度研究代理的全面基准测试
基准
Agent
Mingxuan Du, Benfeng Xu, Chiwei Zhu, et al.
1
44
45
46
47
48
49
EmoNet-Voice:用于语音情感检测的细粒度、专家验证基准数据集
情绪识别
数据集
Christoph Schuhmann, Robert Kaczmarczyk, Gollam Rabby, et al.
s1:简单测试时缩放
监督式微调
推理
Niklas Muennighoff, Zitong Yang, Weijia Shi, et al.
Search-o1:代理增强型搜索大推理模型
检索增强生成
Agent
Xiaoxi Li, Guanting Dong, Jiajie Jin, et al.
LLaVA-Mini:仅用一个视觉token实现高效图像与视频大型多模态模型
多模态
统一多模态
Shaolei Zhang, Qingkai Fang, Zhe Yang, et al.
MAmmoTH-VL:通过大规模指令微调激发多模态推理
多模态
推理
Jarvis Guo, Tuney Zheng, Yuelin Bai, et al.
ShowUI:面向GUI视觉Agent的统一视觉-语言-动作模型
多模态
图像理解
Kevin Qinghong Lin, Linjie Li, Difei Gao, et al.
OS-ATLAS:用于通用GUI Agent的基础动作模型
Agent
数据集
Zhiyong Wu, Zhenyu Wu, Fangzhi Xu, et al.
GPT-4o 系统卡
多模态
统一多模态
OpenAI, Aaron Hurst, Adam Lerer, et al.
SAM2Long:通过无训练记忆树增强SAM 2的长视频分割能力
语义分割
目标跟踪
Shuangrui Ding, Rui Qian, Xiaoyi Dong, et al.
Aria:一个开放的多模态原生专家混合模型
多模态
统一多模态
Dongxu Li, Yudong Liu, Haoning Wu, et al.
Qwen2-VL:在任意分辨率下提升视觉-语言模型对世界的感知能力
多模态
统一多模态
Peng Wang, Shuai Bai, Sinan Tan, et al.
VGGT:视觉几何接地 Transformer
机器视觉 3D
深度估计
Jianyuan Wang, Minghao Chen, Nikita Karaev, et al.
通过单步奖励实现多轮代码生成
代码生成
强化学习
Arnav Kumar Jain, Gonzalo Gonzalez-Pumariega, Wayne Chen, et al.
重新审视大型语言模型的组合泛化能力及其指令遵循能力
LLM
基准
Yusuke Sakai, Hidetaka Kamigaito, Taro Watanabe
具身网络代理:弥合物理-数字领域以实现集成代理智能
具身智能
推理
Yining Hong, Rui Sun, Bingxuan Li, et al.
语义感知奖励在自由形式生成中的开放式R1训练
偏好
文本生成
Zongxia Li, Yapei Chang, Yuhang Zhou, et al.
BUT系统用于MLC-SLM挑战赛
音频和语音处理
多任务学习
Alexander Polok, Jiangyu Han, Dominik Klement, et al.
GenRecal:从大模型到小模型的重新校准生成视觉-语言模型
统一多模态
LLM
Byung-Kwan Lee, Ryo Hachiuma, Yong Man Ro, et al.
ProtoReasoning:原型作为LLM中可泛化推理的基础
LLM
推理
Feng He, Zijun Chen, Xinnian Liang, et al.
Sekai:一个面向世界探索的视频数据集
视频理解
视频描述
Zhen Li, Chuanhao Li, Xiaofeng Mao, et al.
基于数据驱动的二次与天然胶凝前驱体材料筛选
AI for Science
深度学习
Soroush Mahjoubi, Vineeth Venugopal, Ipek Bensu Manav, et al.
QFFT,无问题微调以适应推理
监督式微调
推理
Wanlong Liu, Junxiao Xu, Fei Yu, et al.
大语言模型能否生成高质量的算法问题测试用例? TestCase-Eval:故障覆盖率和暴露的系统性评估
LLM
代码生成
Zheyuan Yang, Zexi Kuang, Xue Xia, et al.
AceReason-Nemotron 1.1:通过SFT和RL协同效应推进数学和代码推理
监督式微调
基准
Zihan Liu, Zhuolin Yang, Yang Chen, et al.
Stream-Omni:基于大型语言-视觉-语音模型的同步多模态交互
多模态
统一多模态
Shaolei Zhang, Shoutao Guo, Qingkai Fang, et al.
通过强化学习实现高效的医学VIE
文档理解
多模态
Lijun Liu, Ruiyang Li, Zhaocheng Liu, et al.
扩展测试时计算以适应LLM代理
Agent
推理
King Zhu, Hanhao Li, Siwei Wu, et al.
迭代转录因子筛选可实现从人类诱导多能干细胞(iPSC)中快速生成类小胶质细胞
基因组学
分子网络
Songlei Liu, Li Li, Fan Zhang, et al.
TaskCraft:代理任务的自动化生成
Agent
推理
Shi, Dingfeng, Cao, et al.
等一下,我们不需要“等待”!移除思考标记可提高推理效率
推理
多模态
Wang, Chenlong, Feng, et al.
Ego-R1:用于超长第一人称视频推理的工具链思维
视频理解
推理
Shulin Tian, Ruiqi Wang, Hongming Guo, et al.
DeepResearch Bench:深度研究代理的全面基准测试
基准
Agent
Mingxuan Du, Benfeng Xu, Chiwei Zhu, et al.
1
44
45
46
47
48
49