具有精炼正则化偏好的大视频语言模型的自对齐
Pritam Sarkar, Ali Etemad
发布日期: 4/23/2025
摘要
尽管大型视频语言模型(LVLMs)近期取得了进展,它们在细粒度时间理解方面仍存在困难,容易产生幻觉,并且在处理简单的视频问答任务时常常犯简单的错误。所有这些问题都对它们在实际应用中的安全可靠部署构成了重大挑战。为了解决这些局限性,我们提出了一种自我对齐框架,使LVLMs能够从自身的错误中学习。我们的框架首先获得一组优选和非优选响应的训练集,其中非优选响应是通过引入由于时空理解不足、共现概念之间的虚假关联以及过度依赖语言线索而忽视视觉模态等因素导致的常见错误模式生成的。为了促进LVLMs与构建的优选和非优选响应对进行自我对齐,我们引入了一种新的偏好优化方法——精炼正则化偏好优化(Refined Regularized Preference Optimization, RRPO),该方法利用子序列级别的精炼奖励和基于标记的KL正则化来解决直接偏好优化(DPO)的局限性。我们证明了RRPO相较于DPO能够实现更精确的对齐和更稳定的训练。我们的实验和分析验证了所提出方法在各种视频任务中的有效性,包括视频幻觉、短视频和长视频理解以及细粒度时间推理。