Command Palette
Search for a command to run...

摘要
本文重新审视了计算机视觉中用于视觉识别任务的标准预训练然后微调范式。通常情况下,最先进的基础模型使用包含数十亿图像的大规模(弱)监督数据集进行预训练。我们引入了一个额外的预预训练阶段,该阶段简单且利用自监督的掩码自动编码器(MAE)技术来初始化模型。尽管此前的研究表明MAE仅随着模型规模的增大而扩展,但我们发现它同样随着训练数据集规模的增大而扩展。因此,基于MAE的预预训练既适用于模型规模也适用于数据规模的扩展,使其成为训练基础模型的有效方法。无论是在不同模型规模(从数百万到数十亿参数)还是在不同数据集大小(从数百万到数十亿图像)上,预预训练都能显著提高模型收敛速度和下游任务迁移性能。我们在10个不同的视觉识别任务上测量了预预训练的有效性,这些任务涵盖了图像分类、视频识别、目标检测、少样本分类和零样本识别。我们的最大规模模型在iNaturalist-18(91.7%)、ImageNet-ReaL(91.1%)、单样本ImageNet-1k(63.6%)以及Food-101上的零样本迁移任务中取得了新的最佳结果(96.2%)。本研究揭示了即使在使用数十亿图像进行网络规模预训练的情况下,模型初始化仍然发挥着重要作用,并且我们的模型已公开提供。
代码仓库
facebookresearch/maws
官方
pytorch
GitHub 中提及