6 个月前

计算机视觉

Lifeng Fan Wenjuan Han Ping Wei Jiapeng Li

摘要

本文提出了一项新型任务——IntentQA，这是一种专注于视频意图推理的特殊视频问答（VideoQA）任务。随着人工智能在日常任务中日益强调超越简单识别的推理能力，该任务的重要性愈发凸显。为此，我们构建了一个大规模的VideoQA数据集以支持该任务的研究。我们进一步提出了一种上下文感知的视频意图推理模型（Context-aware Video Intent Reasoning, CaVIR），该模型包含三个核心组件：i）视频查询语言（Video Query Language, VQL），用于实现情境上下文的更优跨模态表示；ii）对比学习模块，用于挖掘和利用对比性上下文信息；iii）常识推理模块，用于融合常识性上下文知识。在该挑战性任务上的大量实验结果表明，模型各组件均具有显著有效性，所提出的完整模型在性能上显著优于多种基线方法，并展现出良好的泛化能力，可适用于新的VideoQA任务。相关数据集与代码已开源，地址为：https://github.com/JoseponLee/IntentQA.git

源 PDF 查看代码

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

6 个月前

计算机视觉

Lifeng Fan Wenjuan Han Ping Wei Jiapeng Li

摘要

本文提出了一项新型任务——IntentQA，这是一种专注于视频意图推理的特殊视频问答（VideoQA）任务。随着人工智能在日常任务中日益强调超越简单识别的推理能力，该任务的重要性愈发凸显。为此，我们构建了一个大规模的VideoQA数据集以支持该任务的研究。我们进一步提出了一种上下文感知的视频意图推理模型（Context-aware Video Intent Reasoning, CaVIR），该模型包含三个核心组件：i）视频查询语言（Video Query Language, VQL），用于实现情境上下文的更优跨模态表示；ii）对比学习模块，用于挖掘和利用对比性上下文信息；iii）常识推理模块，用于融合常识性上下文知识。在该挑战性任务上的大量实验结果表明，模型各组件均具有显著有效性，所提出的完整模型在性能上显著优于多种基线方法，并展现出良好的泛化能力，可适用于新的VideoQA任务。相关数据集与代码已开源，地址为：https://github.com/JoseponLee/IntentQA.git

源 PDF 查看代码

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供