HyperAIHyperAI

Command Palette

Search for a command to run...

电影对话:从密集 token 到稀疏记忆的长视频理解

摘要

近日,通过整合视频基础模型和大规模语言模型来构建视频理解系统,可以克服特定预定义视觉任务的局限性。然而,现有的系统只能处理帧数非常少的视频。对于长视频而言,计算复杂度、内存成本以及长时间的时间连接性带来了额外的挑战。借鉴阿特金森-希夫林记忆模型(Atkinson-Shiffrin memory model),我们将Transformer中的标记(tokens)作为记忆载体,并结合我们专门设计的记忆机制,提出了MovieChat以应对这些挑战。MovieChat在长视频理解方面达到了最先进的性能,并发布了包含1000部长视频和14000个人工注释的MovieChat-1K基准数据集,用于验证我们方法的有效性。


用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码
开箱即用的 GPU
最优定价

HyperAI Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供