HyperAIHyperAI

Command Palette

Search for a command to run...

基于捕捉头-脸-眼时空交互上下文的端到端视频注视估计

Yiran Guan Zhuoguang Chen Wenzheng Zeng Zhiguo Cao Yang Xiao

摘要

在本文中,我们提出了一种新方法——多线索注视(Multi-Clue Gaze, MCGaze),通过端到端学习方式捕捉头部、面部与眼睛之间的时空交互上下文,以促进视频注视估计。这一方面在以往研究中尚未得到充分关注。MCGaze的主要优势在于,能够以一步式联合优化的方式,同时完成头部、面部与眼睛线索的定位任务,从而实现注视估计的高效协同求解。在此过程中,头部、面部与眼睛上的各类线索之间发生时空上下文信息的交互与共享。由此,通过融合来自不同查询的特征所获得的最终注视结果,既能感知来自头部和面部的全局线索,又能捕捉眼睛的局部线索,从而显著提升性能表现。同时,一步式运行机制也保障了较高的推理效率。在具有挑战性的 Gaze360 数据集上的实验验证了所提方法的优越性。源代码将发布于 https://github.com/zgchen33/MCGaze


用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码
开箱即用的 GPU
最优定价

HyperAI Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供