8 个月前

摘要

我们介绍了Point-BERT，这是一种新的范式，旨在将BERT的概念推广到三维点云。受BERT的启发，我们设计了一种掩码点建模（Masked Point Modeling, MPM）任务来预训练点云Transformer模型。具体而言，我们首先将点云划分为若干个局部点块，然后设计了一个基于离散变分自编码器（Discrete Variational AutoEncoder, dVAE）的点云Tokenizer来生成包含有意义局部信息的离散点标记。接下来，我们随机遮蔽输入点云的一些局部块，并将其送入骨干Transformer模型中。预训练的目标是在Tokenizer生成的点标记监督下恢复被遮蔽位置的原始点标记。大量实验表明，所提出的类似BERT的预训练策略显著提升了标准点云Transformer模型的性能。通过采用我们的预训练策略，纯Transformer架构在ModelNet40数据集上达到了93.8%的准确率，在ScanObjectNN数据集最困难的设置下达到了83.1%的准确率，超过了经过精心设计且具有更多手工特征的点云模型。此外，我们还展示了Point-BERT学习到的表示能够很好地迁移到新任务和新领域，在少样本点云分类任务中大幅推进了现有技术水平。代码和预训练模型可在https://github.com/lulutang0608/Point-BERT 获取。

源 PDF 查看代码