鹰2.5:提升前沿视觉-语言模型的长上下文后训练
Guo Chen, Zhiqi Li, Shihao Wang, Jindong Jiang, Yicheng Liu, Lidong Lu, De-An Huang, Wonmin Byeon, Matthieu Le, Tuomas Rintamaki, Tyler Poon, Max Ehrlich, Tuomas Rintamaki, Tyler Poon, Tong Lu, Limin Wang, Bryan Catanzaro, Jan Kautz, Andrew Tao, Zhiding Yu, Guilin Liu
发布日期: 4/23/2025

摘要
我们介绍了Eagle 2.5,这是一系列前沿的视觉-语言模型(VLMs),用于长上下文多模态学习。我们的研究解决了长视频理解和高分辨率图像理解中的挑战,提出了一种适用于这两项任务的通用框架。所提出的训练框架结合了自动降级采样(Automatic Degrade Sampling)和图像区域保留(Image Area Preservation)两种技术,以保持上下文的完整性及视觉细节。该框架还包含了许多针对长上下文数据训练的效率优化措施。最后,我们提出了Eagle-Video-110K,这是一个新的数据集,整合了故事层面和片段层面的注释,有助于长视频的理解。Eagle 2.5在长上下文多模态基准测试中表现出显著改进,为现有VLMs的局限性提供了一个强大的解决方案。特别是,我们最佳的模型Eagle 2.5-8B在使用512帧输入的情况下,在Video-MME测试中达到了72.4%的准确率,与顶级商业模型如GPT-4o以及大规模开源模型如Qwen2.5-VL-72B和InternVL2.5-78B的结果相当。