
摘要
视觉和语言基础模型在多模态理解、推理和生成方面的显著进展激发了越来越多的努力,旨在将这种智能扩展到物理世界,推动了视觉-语言-行动(VLA)模型的蓬勃发展。尽管当前的方法看似多样,我们观察到现有的VLA模型可以统一在一个单一框架下:视觉和语言输入通过一系列VLA模块进行处理,生成一连串的动作标记,这些动作标记逐步编码更加具体和可执行的信息,最终产生可执行的动作。我们进一步确定,区分VLA模型的主要设计选择在于如何制定动作标记,这些标记可以归类为语言描述、代码、可用性(affordance)、轨迹、目标状态、潜在表示(latent representation)、原始动作和推理。然而,目前对于动作标记的理解仍然不够全面,这严重阻碍了有效的VLA开发,并模糊了未来的发展方向。因此,本综述旨在通过动作标记化的视角对现有的VLA研究进行分类和解读,提炼每种标记类型的优势和局限,并识别改进的领域。通过这一系统的回顾和分析,我们提供了对VLA模型更广泛演进的综合展望,突出了尚未充分探索但前景光明的方向,并为未来的研究所贡献指导,希望将该领域推向更加通用的智能。