8 个月前

卷积神经网络

计算机视觉

Jaewon Son Jaehun Park Kwangsu Kim*

摘要

视频摘要旨在生成视频的简洁表示，捕捉其核心内容和关键时刻，同时减少整体长度。尽管一些方法采用了注意力机制来处理长期依赖关系，但它们往往无法捕捉帧中固有的视觉重要性。为了解决这一局限性，我们提出了一种基于卷积神经网络（CNN）的空间时间注意力（CSTA）方法，该方法将单个视频中的每一帧特征堆叠形成图像样的帧表示，并对这些帧特征应用二维卷积神经网络（2D CNN）。我们的方法依赖于CNN来理解帧间和帧内的关系，并通过利用其在图像中学习绝对位置的能力来发现视频中的关键属性。与之前通过设计额外模块以关注空间重要性而牺牲效率的工作不同，CSTA所需的计算开销极小，因为它使用CNN作为滑动窗口。在两个基准数据集（SumMe和TVSum）上进行的大量实验表明，我们提出的方法在比以往方法具有更少的乘加运算（MACs）的情况下实现了最先进的性能。代码可在https://github.com/thswodnjs3/CSTA 获取。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

8 个月前

卷积神经网络

计算机视觉

Jaewon Son Jaehun Park Kwangsu Kim*

摘要

视频摘要旨在生成视频的简洁表示，捕捉其核心内容和关键时刻，同时减少整体长度。尽管一些方法采用了注意力机制来处理长期依赖关系，但它们往往无法捕捉帧中固有的视觉重要性。为了解决这一局限性，我们提出了一种基于卷积神经网络（CNN）的空间时间注意力（CSTA）方法，该方法将单个视频中的每一帧特征堆叠形成图像样的帧表示，并对这些帧特征应用二维卷积神经网络（2D CNN）。我们的方法依赖于CNN来理解帧间和帧内的关系，并通过利用其在图像中学习绝对位置的能力来发现视频中的关键属性。与之前通过设计额外模块以关注空间重要性而牺牲效率的工作不同，CSTA所需的计算开销极小，因为它使用CNN作为滑动窗口。在两个基准数据集（SumMe和TVSum）上进行的大量实验表明，我们提出的方法在比以往方法具有更少的乘加运算（MACs）的情况下实现了最先进的性能。代码可在https://github.com/thswodnjs3/CSTA 获取。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供