HyperAI超神经

透过镜子:奇异图像的常识一致性评估

Rykov, Elisei ; Petrushina, Kseniia ; Titova, Kseniia ; Razzhigaev, Anton ; Panchenko, Alexander ; Konovalov, Vasily
发布日期: 5/21/2025
透过镜子:奇异图像的常识一致性评估
摘要

评估真实图像在人工智能研究中是一项复杂的任务。例如,一张沙漠中男孩手持吸尘器的图像违背了常识。我们提出了一种新颖的方法,称为“镜中世界”(Through the Looking Glass, TLG),利用大型视觉-语言模型(LVLMs)和基于Transformer的编码器来评估图像的常识一致性。通过利用LVLMs从这些图像中提取原子事实,我们获得了准确的事实组合。接下来,我们在编码后的原子事实上微调了一个紧凑的注意力池化分类器。我们的TLG方法在WHOOPS! 和WEIRD数据集上取得了最新的最佳性能,同时利用了一个紧凑的微调组件。