科学家证实:多模态大模型能像人一样理解物体概念
人类对自然界中的物体具有多维度的认知能力,不仅能识别其物理特征,还能理解其功能、情感价值和文化意义。这种复杂的物体概念表征一直是人类智能的重要组成部分。近年来,随着大规模语言模型(LLMs)如ChatGPT的快速发展,一个关键问题是这些模型是否能够像人类一样形成对物体的多维度理解。 近日,中国科学院自动化研究所(以下简称“自动化所”)神经计算与脑机交互(NeuBCI)课题组与中国科学院脑科学与智能技术卓越创新中心的联合团队,通过对多模态大语言模型(MLLMs)进行行为实验和神经影像分析,首次证实这些模型能够在没有任何显式指导的情况下,自发形成与人类高度相似的物体概念表征系统。 研究团队设计了一套创新的实验范式,利用认知心理学中的“三选一异类识别任务”(triplet odd-one-out),要求参与实验的AI和人类从一组三个物体概念中选出最不相似的一个。实验涵盖了1854种日常概念,共收集了470万次行为判断数据。基于这些数据,他们构建了AI大模型的“概念地图”。 结果显示,从这些大数据中提取出了66个高度可解释的“心智维度”,并且这些维度与大脑特定区域(如FFA、PPA和EBA)的神经活动模式显著相关。进一步的分析表明,多模态大模型(如Gemini_Pro_Vision、Qwen2_VL)在行为选择模式上与人类表现出更高的相似性,这意味着这些模型在某种程度上具备了理解和分类物体的能力,而不仅仅是简单的“识别”。 尽管如此,研究也揭示了一些差异。人类在做决策时更倾向于结合视觉特征和语义信息,而多模态大模型更依赖于语义标签和抽象概念。这说明,虽然模型具备了一定程度的人类认知方式,但其内部机制仍然有别于人类大脑。 这项研究具有重要意义,不仅为人工智能认知科学领域开辟了新的研究方向,也为未来开发更加类人认知结构的人工智能系统提供了坚实的理论基础。研究论文已在《自然·机器智能》(Nature Machine Intelligence)上发表,论文第一作者为自动化所副研究员杜长德,通讯作者为何晖光研究员。项目的主要合作方包括脑智卓越中心的常乐研究员等,研究受到了中国科学院基础与交叉前沿科研先导专项、国家自然科学基金和北京市自然科学基金等多项支持。 业内人士对这一研究给予高度评价,认为它不仅是对多模态大模型性能的一次重要验证,也开启了AI研究向更深层次人类认知模拟迈进的大门。这对于实现真正智能的AI系统有着重要的理论指导意义。中国科学院自动化研究所是国内顶尖的科研机构之一,专注于脑认知与类脑智能等前沿领域,近年来在人工智能和神经科学交叉研究方面取得了多项重要突破。