HyperAI

主区域

GPU

控制台
文档
价格

Pulse

报道

资源

论文
教程
数据集
百科

基准测试

SOTA
大语言模型（LLM）
GPU 排行榜

社区

活动

实用工具

关于服务条款隐私政策
中文

Command Palette

Search for a command to run...

HyperAI
论文

论文

每日更新的前沿人工智能研究论文,帮助您紧跟最新的人工智能趋势

学习、理解、实践，与社区一起构建人工智能的未来

关于

关于我们数据集支持

产品

报道教程数据集百科

链接

TVM 中文 Apache TVM

© HyperAI

津ICP备17010941号-1

京公网安备11010502038810号

GitHub Discord X (formerly Twitter)Bilibili

HyperAI

主区域

GPU

控制台
文档
价格

Pulse

报道

资源

论文
教程
数据集
百科

基准测试

SOTA
大语言模型（LLM）
GPU 排行榜

社区

活动

实用工具

关于服务条款隐私政策
中文

Command Palette

Search for a command to run...

HyperAI
论文

论文

每日更新的前沿人工智能研究论文,帮助您紧跟最新的人工智能趋势

学习、理解、实践，与社区一起构建人工智能的未来

关于

关于我们数据集支持

产品

报道教程数据集百科

链接

TVM 中文 Apache TVM

© HyperAI

津ICP备17010941号-1

京公网安备11010502038810号

GitHub Discord X (formerly Twitter)Bilibili

CoTox：基于思维链的分子毒性推理与预测

CoTox：基于思维链的分子毒性推理与预测

Jueon Park, Yein Park, Minju Song, et al.

高效代理：在降低成本的同时构建有效代理

高效代理：在降低成本的同时构建有效代理

Ningning Wang, Xavier Hu, Pai Liu, et al.

LLM 的思维链推理是一场幻觉吗？基于数据分布的视角

LLM 的思维链推理是一场幻觉吗？基于数据分布的视角

Chengshuai Zhao, Zhen Tan, Pingchuan Ma, et al.

VeriGUI：可验证的长链GUI数据集

VeriGUI：可验证的长链GUI数据集

Shunyu Liu, Minghao Liu, Huichi Zhou, et al.

Qwen2.5-VL 技术报告

Qwen2.5-VL 技术报告

Shuai Bai, Keqin Chen, Xuejing Liu, et al.

生成对抗网络已死；万岁，生成对抗网络！一种现代的生成对抗网络基线

生成对抗网络已死；万岁，生成对抗网络！一种现代的生成对抗网络基线

计算机视觉

Yiwen Huang, Aaron Gokaslan, Volodymyr Kuleshov, et al.

MegaPairs：面向通用多模态检索的大规模数据合成

MegaPairs：面向通用多模态检索的大规模数据合成

Junjie Zhou, Zheng Liu, Ze Liu, et al.

Lyra：一种高效且以语音为中心的全认知框架

Lyra：一种高效且以语音为中心的全认知框架

统一多模态

Zhisheng Zhong, Chengyao Wang, Yuqi Liu, et al.

通过模型、数据和测试时扩展，拓展开源多模态模型的性能边界

通过模型、数据和测试时扩展，拓展开源多模态模型的性能边界

Zhe Chen, Weiyun Wang, Yue Cao, et al.

NVILA：高效前沿视觉语言模型

NVILA：高效前沿视觉语言模型

Zhijian Liu, Ligeng Zhu, Baifeng Shi, et al.

VisionZip：在视觉语言模型中，更长并不一定更好

VisionZip：在视觉语言模型中，更长并不一定更好

多模态表征

Senqiao Yang, Yukang Chen, Zhuotao Tian, et al.

百川Omni技术报告

百川Omni技术报告

统一多模态

Yadong Li, Haoze Sun, Mingan Lin, et al.

MM1.5：多模态LLM微调的方法、分析与洞见

MM1.5：多模态LLM微调的方法、分析与洞见

Haotian Zhang, Mingfei Gao, Zhe Gan, et al.

Emu3：下一token预测就是你所需的一切

Emu3：下一token预测就是你所需的一切

统一多模态

Xinlong Wang, Xiaosong Zhang, Zhengxiong Luo, et al.

CogVLM2：用于图像与视频理解的视觉语言模型

CogVLM2：用于图像与视频理解的视觉语言模型

Wenyi Hong, Weihan Wang, Ming Ding, et al.

Qwen2 技术报告

Qwen2 技术报告

An Yang, Baosong Yang, Binyuan Hui, et al.

一张图像对于重建和生成而言价值32个token

一张图像对于重建和生成而言价值32个token

Qihang Yu, Mark Weber, Xueqing Deng, et al.

自回归模型胜过扩散模型：Llama 实现可扩展的图像生成

自回归模型胜过扩散模型：Llama 实现可扩展的图像生成

Peize Sun, Yi Jiang, Shoufa Chen, et al.

Meteor：基于Mamba的大型语言与视觉模型推理路径遍历

Meteor：基于Mamba的大型语言与视觉模型推理路径遍历

Byung-Kwan Lee, Chae Won Kim, Beomchan Park, et al.

FIFO-Diffusion：无需训练从文本生成无限视频

FIFO-Diffusion：无需训练从文本生成无限视频

Jihwan Kim, Junoh Kang, Jinyoung Choi, et al.

我们距离GPT-4V还有多远？通过开源套件缩小与商业多模态模型的差距

我们距离GPT-4V还有多远？通过开源套件缩小与商业多模态模型的差距

Zhe Chen, Weiyun Wang, Hao Tian, et al.

通过想象、搜索与批判实现LLM的自我改进

通过想象、搜索与批判实现LLM的自我改进

Ye Tian, Baolin Peng, Linfeng Song, et al.

OmniFusion 技术报告

OmniFusion 技术报告

统一多模态

Elizaveta Goncharova, Anton Razzhigaev, Matvey Mikhalchuk, et al.

机器学习预测误差优于DFT精度

机器学习预测误差优于DFT精度

Felix A. Faber, Luke Hutchison, Bing Huang, et al.

SEAgent：具备从经验中自主学习能力的自演化计算机使用代理

SEAgent：具备从经验中自主学习能力的自演化计算机使用代理

统一多模态

Zeyi Sun, Ziyu Liu, Yuhang Zang, et al.

AMix-1：通往测试时可扩展蛋白质基础模型的路径

AMix-1：通往测试时可扩展蛋白质基础模型的路径

Changze Lv, Jiang Zhou, Siyu Long, et al.

CRINN：用于近似最近邻搜索的对比强化学习

CRINN：用于近似最近邻搜索的对比强化学习

检索增强生成

Xiaoya Li, Xiaofei Sun, Albert Wang, et al.

表示偏移：统一令牌压缩与FlashAttention

表示偏移：统一令牌压缩与FlashAttention

Joonmyung Choi, Sanghyeok Lee, Byungoh Ko, et al.

CompassVerifier：一种统一且鲁棒的LLM评估与结果奖励验证器

CompassVerifier：一种统一且鲁棒的LLM评估与结果奖励验证器

Shudong Liu, Hongwei Liu, Junnan Liu, et al.

LongVie：多模态引导的可控超长视频生成

LongVie：多模态引导的可控超长视频生成

Jianxiong Gao, Zhaoxi Chen, Xian Liu, et al.

Skywork UniPic：面向视觉理解与生成的统一自回归建模

Skywork UniPic：面向视觉理解与生成的统一自回归建模

Peiyu Wang, Yi Peng, Yimeng Gan, et al.

Seed Diffusion：一种具备高速推理能力的大规模扩散语言模型

Seed Diffusion：一种具备高速推理能力的大规模扩散语言模型

\Yuxuan Song\, \ Zheng Zhang\, \ Cheng Luo\, et al.

CoTox：基于思维链的分子毒性推理与预测

CoTox：基于思维链的分子毒性推理与预测

Jueon Park, Yein Park, Minju Song, et al.

高效代理：在降低成本的同时构建有效代理

高效代理：在降低成本的同时构建有效代理

Ningning Wang, Xavier Hu, Pai Liu, et al.

LLM 的思维链推理是一场幻觉吗？基于数据分布的视角

LLM 的思维链推理是一场幻觉吗？基于数据分布的视角

Chengshuai Zhao, Zhen Tan, Pingchuan Ma, et al.

VeriGUI：可验证的长链GUI数据集

VeriGUI：可验证的长链GUI数据集

Shunyu Liu, Minghao Liu, Huichi Zhou, et al.

Qwen2.5-VL 技术报告

Qwen2.5-VL 技术报告

Shuai Bai, Keqin Chen, Xuejing Liu, et al.

生成对抗网络已死；万岁，生成对抗网络！一种现代的生成对抗网络基线

生成对抗网络已死；万岁，生成对抗网络！一种现代的生成对抗网络基线

计算机视觉

Yiwen Huang, Aaron Gokaslan, Volodymyr Kuleshov, et al.

MegaPairs：面向通用多模态检索的大规模数据合成

MegaPairs：面向通用多模态检索的大规模数据合成

Junjie Zhou, Zheng Liu, Ze Liu, et al.

Lyra：一种高效且以语音为中心的全认知框架

Lyra：一种高效且以语音为中心的全认知框架

统一多模态

Zhisheng Zhong, Chengyao Wang, Yuqi Liu, et al.

通过模型、数据和测试时扩展，拓展开源多模态模型的性能边界

通过模型、数据和测试时扩展，拓展开源多模态模型的性能边界

Zhe Chen, Weiyun Wang, Yue Cao, et al.

NVILA：高效前沿视觉语言模型

NVILA：高效前沿视觉语言模型

Zhijian Liu, Ligeng Zhu, Baifeng Shi, et al.

VisionZip：在视觉语言模型中，更长并不一定更好

VisionZip：在视觉语言模型中，更长并不一定更好

多模态表征

Senqiao Yang, Yukang Chen, Zhuotao Tian, et al.

百川Omni技术报告

百川Omni技术报告

统一多模态

Yadong Li, Haoze Sun, Mingan Lin, et al.

MM1.5：多模态LLM微调的方法、分析与洞见

MM1.5：多模态LLM微调的方法、分析与洞见

Haotian Zhang, Mingfei Gao, Zhe Gan, et al.

Emu3：下一token预测就是你所需的一切

Emu3：下一token预测就是你所需的一切

统一多模态

Xinlong Wang, Xiaosong Zhang, Zhengxiong Luo, et al.

CogVLM2：用于图像与视频理解的视觉语言模型

CogVLM2：用于图像与视频理解的视觉语言模型

Wenyi Hong, Weihan Wang, Ming Ding, et al.

Qwen2 技术报告

Qwen2 技术报告

An Yang, Baosong Yang, Binyuan Hui, et al.

一张图像对于重建和生成而言价值32个token

一张图像对于重建和生成而言价值32个token

Qihang Yu, Mark Weber, Xueqing Deng, et al.

自回归模型胜过扩散模型：Llama 实现可扩展的图像生成

自回归模型胜过扩散模型：Llama 实现可扩展的图像生成

Peize Sun, Yi Jiang, Shoufa Chen, et al.

Meteor：基于Mamba的大型语言与视觉模型推理路径遍历

Meteor：基于Mamba的大型语言与视觉模型推理路径遍历

Byung-Kwan Lee, Chae Won Kim, Beomchan Park, et al.

FIFO-Diffusion：无需训练从文本生成无限视频

FIFO-Diffusion：无需训练从文本生成无限视频

Jihwan Kim, Junoh Kang, Jinyoung Choi, et al.

我们距离GPT-4V还有多远？通过开源套件缩小与商业多模态模型的差距

我们距离GPT-4V还有多远？通过开源套件缩小与商业多模态模型的差距

Zhe Chen, Weiyun Wang, Hao Tian, et al.

通过想象、搜索与批判实现LLM的自我改进

通过想象、搜索与批判实现LLM的自我改进

Ye Tian, Baolin Peng, Linfeng Song, et al.

OmniFusion 技术报告

OmniFusion 技术报告

统一多模态

Elizaveta Goncharova, Anton Razzhigaev, Matvey Mikhalchuk, et al.

机器学习预测误差优于DFT精度

机器学习预测误差优于DFT精度

Felix A. Faber, Luke Hutchison, Bing Huang, et al.

SEAgent：具备从经验中自主学习能力的自演化计算机使用代理

SEAgent：具备从经验中自主学习能力的自演化计算机使用代理

统一多模态

Zeyi Sun, Ziyu Liu, Yuhang Zang, et al.

AMix-1：通往测试时可扩展蛋白质基础模型的路径

AMix-1：通往测试时可扩展蛋白质基础模型的路径

Changze Lv, Jiang Zhou, Siyu Long, et al.

CRINN：用于近似最近邻搜索的对比强化学习

CRINN：用于近似最近邻搜索的对比强化学习

检索增强生成

Xiaoya Li, Xiaofei Sun, Albert Wang, et al.

表示偏移：统一令牌压缩与FlashAttention

表示偏移：统一令牌压缩与FlashAttention

Joonmyung Choi, Sanghyeok Lee, Byungoh Ko, et al.

CompassVerifier：一种统一且鲁棒的LLM评估与结果奖励验证器

CompassVerifier：一种统一且鲁棒的LLM评估与结果奖励验证器

Shudong Liu, Hongwei Liu, Junnan Liu, et al.

LongVie：多模态引导的可控超长视频生成

LongVie：多模态引导的可控超长视频生成

Jianxiong Gao, Zhaoxi Chen, Xian Liu, et al.

Skywork UniPic：面向视觉理解与生成的统一自回归建模

Skywork UniPic：面向视觉理解与生成的统一自回归建模

Peiyu Wang, Yi Peng, Yimeng Gan, et al.

Seed Diffusion：一种具备高速推理能力的大规模扩散语言模型

Seed Diffusion：一种具备高速推理能力的大规模扩散语言模型

\Yuxuan Song\, \ Zheng Zhang\, \ Cheng Luo\, et al.