6 个月前

计算机视觉

多任务学习

计算机视觉

Yiran Guan Zhuoguang Chen Wenzheng Zeng Zhiguo Cao Yang Xiao

摘要

在本文中，我们提出了一种新方法——多线索注视（Multi-Clue Gaze, MCGaze），通过端到端学习方式捕捉头部、面部与眼睛之间的时空交互上下文，以促进视频注视估计。这一方面在以往研究中尚未得到充分关注。MCGaze的主要优势在于，能够以一步式联合优化的方式，同时完成头部、面部与眼睛线索的定位任务，从而实现注视估计的高效协同求解。在此过程中，头部、面部与眼睛上的各类线索之间发生时空上下文信息的交互与共享。由此，通过融合来自不同查询的特征所获得的最终注视结果，既能感知来自头部和面部的全局线索，又能捕捉眼睛的局部线索，从而显著提升性能表现。同时，一步式运行机制也保障了较高的推理效率。在具有挑战性的 Gaze360 数据集上的实验验证了所提方法的优越性。源代码将发布于 https://github.com/zgchen33/MCGaze。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

6 个月前

计算机视觉

多任务学习

计算机视觉

Yiran Guan Zhuoguang Chen Wenzheng Zeng Zhiguo Cao Yang Xiao

摘要

在本文中，我们提出了一种新方法——多线索注视（Multi-Clue Gaze, MCGaze），通过端到端学习方式捕捉头部、面部与眼睛之间的时空交互上下文，以促进视频注视估计。这一方面在以往研究中尚未得到充分关注。MCGaze的主要优势在于，能够以一步式联合优化的方式，同时完成头部、面部与眼睛线索的定位任务，从而实现注视估计的高效协同求解。在此过程中，头部、面部与眼睛上的各类线索之间发生时空上下文信息的交互与共享。由此，通过融合来自不同查询的特征所获得的最终注视结果，既能感知来自头部和面部的全局线索，又能捕捉眼睛的局部线索，从而显著提升性能表现。同时，一步式运行机制也保障了较高的推理效率。在具有挑战性的 Gaze360 数据集上的实验验证了所提方法的优越性。源代码将发布于 https://github.com/zgchen33/MCGaze。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供