HyperAIHyperAI

Command Palette

Search for a command to run...

基于稀疏专家混合的视觉模型扩展

Carlos Riquelme Joan Puigcerver Basil Mustafa Maxim Neumann Rodolphe Jenatton André Susano Pinto Daniel Keysers Neil Houlsby

摘要

稀疏门控的专家混合网络(Sparsely-gated Mixture of Experts, MoE)在自然语言处理领域已展现出卓越的可扩展性。然而,在计算机视觉领域,几乎所有的高性能网络仍采用“稠密”结构,即每个输入都经过所有参数的处理。本文提出了一种视觉专家混合网络(Vision MoE, V-MoE),这是一种稀疏化的视觉Transformer架构,具备良好的可扩展性,并在性能上可与当前最大的稠密网络相媲美。在图像识别任务中,V-MoE达到了与最先进网络相当的性能水平,同时在推理阶段所需的计算量可减少至其一半。此外,我们对路由算法进行了扩展,使其能够对整个批次中每个输入的子集进行优先级调度,从而实现自适应的每图像计算量调节。这一特性使V-MoE能够在测试阶段平滑地在性能与计算开销之间进行权衡。最后,我们展示了V-MoE在扩展视觉模型方面的巨大潜力,并成功训练了一个参数量达150亿的模型,在ImageNet数据集上取得了90.35%的准确率。


用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码
开箱即用的 GPU
最优定价

HyperAI Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供