HyperAI
HyperAI
主区域
首页
GPU
控制台
文档
价格
Pulse
报道
资源
论文
教程
数据集
百科
基准测试
SOTA
大语言模型(LLM)
GPU 排行榜
社区
活动
开源
实用工具
搜索
关于
服务条款
隐私政策
中文
HyperAI
HyperAI
Toggle Sidebar
⌘
K
Command Palette
Search for a command to run...
登录
HyperAI
论文
论文
每日更新的前沿人工智能研究论文,帮助您紧跟最新的人工智能趋势
HyperAI
HyperAI
主区域
首页
GPU
控制台
文档
价格
Pulse
报道
资源
论文
教程
数据集
百科
基准测试
SOTA
大语言模型(LLM)
GPU 排行榜
社区
活动
开源
实用工具
搜索
关于
服务条款
隐私政策
中文
HyperAI
HyperAI
Toggle Sidebar
⌘
K
Command Palette
Search for a command to run...
登录
HyperAI
论文
论文
每日更新的前沿人工智能研究论文,帮助您紧跟最新的人工智能趋势
CoTox:基于思维链的分子毒性推理与预测
LLM
推理
Jueon Park, Yein Park, Minju Song, et al.
高效代理:在降低成本的同时构建有效代理
Agent
LLM
Ningning Wang, Xavier Hu, Pai Liu, et al.
LLM 的思维链推理是一场幻觉吗?基于数据分布的视角
LLM
推理
Chengshuai Zhao, Zhen Tan, Pingchuan Ma, et al.
VeriGUI:可验证的长链GUI数据集
Agent
基准
Shunyu Liu, Minghao Liu, Huichi Zhou, et al.
Qwen2.5-VL 技术报告
文档理解
视频理解
Shuai Bai, Keqin Chen, Xuejing Liu, et al.
生成对抗网络已死;万岁,生成对抗网络!一种现代的生成对抗网络基线
深度学习
计算机视觉
Yiwen Huang, Aaron Gokaslan, Volodymyr Kuleshov, et al.
MegaPairs:面向通用多模态检索的大规模数据合成
多模态
数据集
Junjie Zhou, Zheng Liu, Ze Liu, et al.
Lyra:一种高效且以语音为中心的全认知框架
统一多模态
LLM
Zhisheng Zhong, Chengyao Wang, Yuqi Liu, et al.
通过模型、数据和测试时扩展,拓展开源多模态模型的性能边界
多模态
LLM
Zhe Chen, Weiyun Wang, Yue Cao, et al.
NVILA:高效前沿视觉语言模型
多模态
视频理解
Zhijian Liu, Ligeng Zhu, Baifeng Shi, et al.
VisionZip:在视觉语言模型中,更长并不一定更好
多模态
多模态表征
Senqiao Yang, Yukang Chen, Zhuotao Tian, et al.
百川Omni技术报告
多模态
统一多模态
Yadong Li, Haoze Sun, Mingan Lin, et al.
MM1.5:多模态LLM微调的方法、分析与洞见
多模态
LLM
Haotian Zhang, Mingfei Gao, Zhe Gan, et al.
Emu3:下一token预测就是你所需的一切
Transformer
统一多模态
Xinlong Wang, Xiaosong Zhang, Zhengxiong Luo, et al.
CogVLM2:用于图像与视频理解的视觉语言模型
图像理解
视频理解
Wenyi Hong, Weihan Wang, Ming Ding, et al.
Qwen2 技术报告
LLM
代码生成
An Yang, Baosong Yang, Binyuan Hui, et al.
一张图像对于重建和生成而言价值32个token
Transformer
图像生成
Qihang Yu, Mark Weber, Xueqing Deng, et al.
自回归模型胜过扩散模型:Llama 实现可扩展的图像生成
LLM
图像生成
Peize Sun, Yi Jiang, Shoufa Chen, et al.
Meteor:基于Mamba的大型语言与视觉模型推理路径遍历
视觉问答
多模态
Byung-Kwan Lee, Chae Won Kim, Beomchan Park, et al.
FIFO-Diffusion:无需训练从文本生成无限视频
扩散模型
视频生成
Jihwan Kim, Junoh Kang, Jinyoung Choi, et al.
我们距离GPT-4V还有多远?通过开源套件缩小与商业多模态模型的差距
视觉问答
文档理解
Zhe Chen, Weiyun Wang, Hao Tian, et al.
通过想象、搜索与批判实现LLM的自我改进
LLM
推理
Ye Tian, Baolin Peng, Linfeng Song, et al.
OmniFusion 技术报告
视觉问答
统一多模态
Elizaveta Goncharova, Anton Razzhigaev, Matvey Mikhalchuk, et al.
机器学习预测误差优于DFT精度
深度学习
分子网络
Felix A. Faber, Luke Hutchison, Bing Huang, et al.
SEAgent:具备从经验中自主学习能力的自演化计算机使用代理
Agent
统一多模态
Zeyi Sun, Ziyu Liu, Yuhang Zang, et al.
AMix-1:通往测试时可扩展蛋白质基础模型的路径
AI for Science
深度学习
Changze Lv, Jiang Zhou, Siyu Long, et al.
CRINN:用于近似最近邻搜索的对比强化学习
检索增强生成
LLM
Xiaoya Li, Xiaofei Sun, Albert Wang, et al.
表示偏移:统一令牌压缩与FlashAttention
Transformer
视频处理
Joonmyung Choi, Sanghyeok Lee, Byungoh Ko, et al.
CompassVerifier:一种统一且鲁棒的LLM评估与结果奖励验证器
LLM
推理
Shudong Liu, Hongwei Liu, Junnan Liu, et al.
LongVie:多模态引导的可控超长视频生成
视频生成
多模态
Jianxiong Gao, Zhaoxi Chen, Xian Liu, et al.
Skywork UniPic:面向视觉理解与生成的统一自回归建模
文生图
图像理解
Peiyu Wang, Yi Peng, Yimeng Gan, et al.
Seed Diffusion:一种具备高速推理能力的大规模扩散语言模型
LLM
扩散模型
\Yuxuan Song\, \ Zheng Zhang\, \ Cheng Luo\, et al.
1
35
36
37
38
39
40
41
49
CoTox:基于思维链的分子毒性推理与预测
LLM
推理
Jueon Park, Yein Park, Minju Song, et al.
高效代理:在降低成本的同时构建有效代理
Agent
LLM
Ningning Wang, Xavier Hu, Pai Liu, et al.
LLM 的思维链推理是一场幻觉吗?基于数据分布的视角
LLM
推理
Chengshuai Zhao, Zhen Tan, Pingchuan Ma, et al.
VeriGUI:可验证的长链GUI数据集
Agent
基准
Shunyu Liu, Minghao Liu, Huichi Zhou, et al.
Qwen2.5-VL 技术报告
文档理解
视频理解
Shuai Bai, Keqin Chen, Xuejing Liu, et al.
生成对抗网络已死;万岁,生成对抗网络!一种现代的生成对抗网络基线
深度学习
计算机视觉
Yiwen Huang, Aaron Gokaslan, Volodymyr Kuleshov, et al.
MegaPairs:面向通用多模态检索的大规模数据合成
多模态
数据集
Junjie Zhou, Zheng Liu, Ze Liu, et al.
Lyra:一种高效且以语音为中心的全认知框架
统一多模态
LLM
Zhisheng Zhong, Chengyao Wang, Yuqi Liu, et al.
通过模型、数据和测试时扩展,拓展开源多模态模型的性能边界
多模态
LLM
Zhe Chen, Weiyun Wang, Yue Cao, et al.
NVILA:高效前沿视觉语言模型
多模态
视频理解
Zhijian Liu, Ligeng Zhu, Baifeng Shi, et al.
VisionZip:在视觉语言模型中,更长并不一定更好
多模态
多模态表征
Senqiao Yang, Yukang Chen, Zhuotao Tian, et al.
百川Omni技术报告
多模态
统一多模态
Yadong Li, Haoze Sun, Mingan Lin, et al.
MM1.5:多模态LLM微调的方法、分析与洞见
多模态
LLM
Haotian Zhang, Mingfei Gao, Zhe Gan, et al.
Emu3:下一token预测就是你所需的一切
Transformer
统一多模态
Xinlong Wang, Xiaosong Zhang, Zhengxiong Luo, et al.
CogVLM2:用于图像与视频理解的视觉语言模型
图像理解
视频理解
Wenyi Hong, Weihan Wang, Ming Ding, et al.
Qwen2 技术报告
LLM
代码生成
An Yang, Baosong Yang, Binyuan Hui, et al.
一张图像对于重建和生成而言价值32个token
Transformer
图像生成
Qihang Yu, Mark Weber, Xueqing Deng, et al.
自回归模型胜过扩散模型:Llama 实现可扩展的图像生成
LLM
图像生成
Peize Sun, Yi Jiang, Shoufa Chen, et al.
Meteor:基于Mamba的大型语言与视觉模型推理路径遍历
视觉问答
多模态
Byung-Kwan Lee, Chae Won Kim, Beomchan Park, et al.
FIFO-Diffusion:无需训练从文本生成无限视频
扩散模型
视频生成
Jihwan Kim, Junoh Kang, Jinyoung Choi, et al.
我们距离GPT-4V还有多远?通过开源套件缩小与商业多模态模型的差距
视觉问答
文档理解
Zhe Chen, Weiyun Wang, Hao Tian, et al.
通过想象、搜索与批判实现LLM的自我改进
LLM
推理
Ye Tian, Baolin Peng, Linfeng Song, et al.
OmniFusion 技术报告
视觉问答
统一多模态
Elizaveta Goncharova, Anton Razzhigaev, Matvey Mikhalchuk, et al.
机器学习预测误差优于DFT精度
深度学习
分子网络
Felix A. Faber, Luke Hutchison, Bing Huang, et al.
SEAgent:具备从经验中自主学习能力的自演化计算机使用代理
Agent
统一多模态
Zeyi Sun, Ziyu Liu, Yuhang Zang, et al.
AMix-1:通往测试时可扩展蛋白质基础模型的路径
AI for Science
深度学习
Changze Lv, Jiang Zhou, Siyu Long, et al.
CRINN:用于近似最近邻搜索的对比强化学习
检索增强生成
LLM
Xiaoya Li, Xiaofei Sun, Albert Wang, et al.
表示偏移:统一令牌压缩与FlashAttention
Transformer
视频处理
Joonmyung Choi, Sanghyeok Lee, Byungoh Ko, et al.
CompassVerifier:一种统一且鲁棒的LLM评估与结果奖励验证器
LLM
推理
Shudong Liu, Hongwei Liu, Junnan Liu, et al.
LongVie:多模态引导的可控超长视频生成
视频生成
多模态
Jianxiong Gao, Zhaoxi Chen, Xian Liu, et al.
Skywork UniPic:面向视觉理解与生成的统一自回归建模
文生图
图像理解
Peiyu Wang, Yi Peng, Yimeng Gan, et al.
Seed Diffusion:一种具备高速推理能力的大规模扩散语言模型
LLM
扩散模型
\Yuxuan Song\, \ Zheng Zhang\, \ Cheng Luo\, et al.
1
35
36
37
38
39
40
41
49