透过镜子：奇异图像的常识一致性评估

Rykov, Elisei ; Petrushina, Kseniia ; Titova, Kseniia ; Razzhigaev, Anton ; Panchenko, Alexander ; Konovalov, Vasily

发布日期: 5/21/2025

摘要

评估真实图像在人工智能研究中是一项复杂的任务。例如，一张沙漠中男孩手持吸尘器的图像违背了常识。我们提出了一种新颖的方法，称为“镜中世界”（Through the Looking Glass, TLG），利用大型视觉-语言模型（LVLMs）和基于Transformer的编码器来评估图像的常识一致性。通过利用LVLMs从这些图像中提取原子事实，我们获得了准确的事实组合。接下来，我们在编码后的原子事实上微调了一个紧凑的注意力池化分类器。我们的TLG方法在WHOOPS! 和WEIRD数据集上取得了最新的最佳性能，同时利用了一个紧凑的微调组件。

查看论文详情