HyperAI

主区域

GPU

控制台
文档
价格

Pulse

报道

资源

论文
教程
数据集
百科

基准测试

SOTA
大语言模型（LLM）
GPU 排行榜

社区

活动

实用工具

关于服务条款隐私政策
中文

Command Palette

Search for a command to run...

HyperAI
SOTA
图像分类

图像分类

图像分类是计算机视觉中的基本任务，旨在对整幅图像进行理解和归类，赋予其特定标签。该任务通常针对单个对象的图像，通过深度学习等技术实现高精度分类，具有广泛的应用价值，如内容识别、场景理解等。当分类达到实例级时，与图像检索相关联，后者还涉及在大型数据库中查找相似图像。

DINOv2 (ViT-g/14, frozen model, linear eval)

EffNet-L2 (SAM)

µ2Net+ (ViT-L/16)

BiT-L (ResNet-152x4)

Branching/Merging CNN + Homogeneous Vector Capsules

Wide-ResNet-28-10

iNaturalist 2018

MAE (ViT-H, 448)

mini WebVision 1.0

PreAct-ResNet18 + FMix

ALIGN (50 hypers/task)

Model soups (ViT-G/14)

Kuzushiji-MNIST

iNaturalist 2019

Tiny ImageNet Classification

EMNIST-Balanced

WaveMixLite-128/7

ViT-Large/16 (384)

ViT-Large/16 (384)

ColonINST-v1 (Seen)

ColonINST-v1 (Unseen)

CurriculumNet (InceptionResNet-v2)

MAE (ViT-H, 448)

µ2Net+ (ViT-L/16)

VGG-5(Spinal FC)

VIT-L/16 (Spinal FC, Background)

Clothing1M (using clean data)

µ2Net (ViT-L/16)

InternImage-H（CNN）

Heinsen Routing

Tiered ImageNet 5-way (5-shot)

EGNN+Transduction

Colored-MNIST(with spurious correlation)

Bamboo (ViTB/16)

iWildCam2020-WILDS

Oxford-IIIT Pets

CeiT-S (384 finetune resolution)

Oxford-IIIT Pet Dataset

TWIST (ResNet-50)

Red MiniImageNet 20% label noise

Red MiniImageNet 40% label noise

Red MiniImageNet 80% label noise

CIFAR-10 (with noisy labels)

Entropy-based Logic Explained Network

LRA-diffusion (CLIP ViT)

V-MoE-H/14 (Every-2)

EfficientNet-B3

ObjectNet (Bounding Box)

ResNet-18 + Vision Eagle Attention

Places365-Standard

SWAG (ViT H/14)

Red MiniImageNet 60% label noise

Visual Wake Words

Id Pattern Dataset

Malaria Dataset

kEffNet-B0 V2 16ch

Certificate Verification

CIFAR-10 (40 Labels, ImageNet-100 Unlabeled)

CIFAR-10, 40% Symmetric Noise

CIFAR-10, 60% Symmetric Noise

CIFAR-10 Image Classification

CIFAR-100, 40% Symmetric Noise

SEER (RegNet10B)

SEER (RegNet10B)

Fracture/Normal Shoulder Bone X-ray Images on MURA

Our Ensemble Learning-2

Galaxy10 DECals

ResNet-50 + UDA+AutoDropout

SparseSwin with L2

EfficientNet-L2-Ns

Imbalanced CUB-200-2011

Intel Image Classification

Large Labelled Logo Dataset (L3D)

L3D_original_2level

Noisy MNIST (AWGN)

Noisy MNIST (Contrast)

Noisy MNIST (Motion)

ObjectNet (ImageNet classes)

Diffusion Classifier (zero-shot)

split CIFAR-100

AP-GeM (ResNet-101)

µ2Net+ (ViT-L/16)

CIFAR-100, 60% Symmetric Noise

CIFAR-100 (alpha=0, 20 clients per round)

WRN-28-2 + UDA+AutoDropout

TransBoost-ResNet50

EnGraf-Net101 (G=4, H=1)

Flowers (Tensorflow)

CNN+ Wilson-Cowan model RNN

FMD (materials)

ImageNet-100 (Class-IL, 5T)

WRN (N=28, k=10)

WRN (N=36, k=5)

SqueezeNet + Simple Bypass

ImageNet-Sketch

µ2Net+ (ViT-L/16)

WaveMix-256/16 (level 2)

SEER (RegNet10B)

µ2Net (ViT-L/16)

RADAM (ConvNeXt-XL)

PDO-eConv (ours)

MNIST-rot-12k (DA)

PDO-eConv (ours)

NCT-CRC-HE-100K

No Background RGB Arabic Alphabets Sign Language Dataset

PASCAL VOC 2007

kMobileNet V3 Large 16ch

ResNet-152 2x (RS training)

Deep regularization

RGB Arabic Alphabet Sign Language (AASL) dataset

Fuzzy rank-based fusion of CNN models using Gompertz function

Split Fashion M-NIST

Model with negotiation paradigm

Max Margin Contrastive

Stanford Online Products

TransBoost-ResNet50

Training and validation dataset of capsule vision 2024 challenge.

BiomedCLIP+PubmedBERT

VizWiz-Classification

ISIC 2018+Atlas Dermatology

New Plant Diseases Dataset

touchtech/fashion-images-gender-age

学习、理解、实践，与社区一起构建人工智能的未来

关于

关于我们数据集支持

产品

报道教程数据集百科

链接

TVM 中文 Apache TVM

© HyperAI

津ICP备17010941号-1

京公网安备11010502038810号

GitHub Discord X (formerly Twitter)Bilibili

HyperAI

主区域

GPU

控制台
文档
价格

Pulse

报道

资源

论文
教程
数据集
百科

基准测试

SOTA
大语言模型（LLM）
GPU 排行榜

社区

活动

实用工具

关于服务条款隐私政策
中文

Command Palette

Search for a command to run...

HyperAI
SOTA
图像分类

图像分类

图像分类是计算机视觉中的基本任务，旨在对整幅图像进行理解和归类，赋予其特定标签。该任务通常针对单个对象的图像，通过深度学习等技术实现高精度分类，具有广泛的应用价值，如内容识别、场景理解等。当分类达到实例级时，与图像检索相关联，后者还涉及在大型数据库中查找相似图像。

DINOv2 (ViT-g/14, frozen model, linear eval)

EffNet-L2 (SAM)

µ2Net+ (ViT-L/16)

BiT-L (ResNet-152x4)

Branching/Merging CNN + Homogeneous Vector Capsules

Wide-ResNet-28-10

iNaturalist 2018

MAE (ViT-H, 448)

mini WebVision 1.0

PreAct-ResNet18 + FMix

ALIGN (50 hypers/task)

Model soups (ViT-G/14)

Kuzushiji-MNIST

iNaturalist 2019

Tiny ImageNet Classification

EMNIST-Balanced

WaveMixLite-128/7

ViT-Large/16 (384)

ViT-Large/16 (384)

ColonINST-v1 (Seen)

ColonINST-v1 (Unseen)

CurriculumNet (InceptionResNet-v2)

MAE (ViT-H, 448)

µ2Net+ (ViT-L/16)

VGG-5(Spinal FC)

VIT-L/16 (Spinal FC, Background)

Clothing1M (using clean data)

µ2Net (ViT-L/16)

InternImage-H（CNN）

Heinsen Routing

Tiered ImageNet 5-way (5-shot)

EGNN+Transduction

Colored-MNIST(with spurious correlation)

Bamboo (ViTB/16)

iWildCam2020-WILDS

Oxford-IIIT Pets

CeiT-S (384 finetune resolution)

Oxford-IIIT Pet Dataset

TWIST (ResNet-50)

Red MiniImageNet 20% label noise

Red MiniImageNet 40% label noise

Red MiniImageNet 80% label noise

CIFAR-10 (with noisy labels)

Entropy-based Logic Explained Network

LRA-diffusion (CLIP ViT)

V-MoE-H/14 (Every-2)

EfficientNet-B3

ObjectNet (Bounding Box)

ResNet-18 + Vision Eagle Attention

Places365-Standard

SWAG (ViT H/14)

Red MiniImageNet 60% label noise

Visual Wake Words

Id Pattern Dataset

Malaria Dataset

kEffNet-B0 V2 16ch

Certificate Verification

CIFAR-10 (40 Labels, ImageNet-100 Unlabeled)

CIFAR-10, 40% Symmetric Noise

CIFAR-10, 60% Symmetric Noise

CIFAR-10 Image Classification

CIFAR-100, 40% Symmetric Noise

SEER (RegNet10B)

SEER (RegNet10B)

Fracture/Normal Shoulder Bone X-ray Images on MURA

Our Ensemble Learning-2

Galaxy10 DECals

ResNet-50 + UDA+AutoDropout

SparseSwin with L2

EfficientNet-L2-Ns

Imbalanced CUB-200-2011

Intel Image Classification

Large Labelled Logo Dataset (L3D)

L3D_original_2level

Noisy MNIST (AWGN)

Noisy MNIST (Contrast)

Noisy MNIST (Motion)

ObjectNet (ImageNet classes)

Diffusion Classifier (zero-shot)

split CIFAR-100

AP-GeM (ResNet-101)

µ2Net+ (ViT-L/16)

CIFAR-100, 60% Symmetric Noise

CIFAR-100 (alpha=0, 20 clients per round)

WRN-28-2 + UDA+AutoDropout

TransBoost-ResNet50

EnGraf-Net101 (G=4, H=1)

Flowers (Tensorflow)

CNN+ Wilson-Cowan model RNN

FMD (materials)

ImageNet-100 (Class-IL, 5T)

WRN (N=28, k=10)

WRN (N=36, k=5)

SqueezeNet + Simple Bypass

ImageNet-Sketch

µ2Net+ (ViT-L/16)

WaveMix-256/16 (level 2)

SEER (RegNet10B)

µ2Net (ViT-L/16)

RADAM (ConvNeXt-XL)

PDO-eConv (ours)

MNIST-rot-12k (DA)

PDO-eConv (ours)

NCT-CRC-HE-100K

No Background RGB Arabic Alphabets Sign Language Dataset

PASCAL VOC 2007

kMobileNet V3 Large 16ch

ResNet-152 2x (RS training)

Deep regularization

RGB Arabic Alphabet Sign Language (AASL) dataset

Fuzzy rank-based fusion of CNN models using Gompertz function

Split Fashion M-NIST

Model with negotiation paradigm

Max Margin Contrastive

Stanford Online Products

TransBoost-ResNet50

Training and validation dataset of capsule vision 2024 challenge.

BiomedCLIP+PubmedBERT

VizWiz-Classification

ISIC 2018+Atlas Dermatology

New Plant Diseases Dataset

touchtech/fashion-images-gender-age

学习、理解、实践，与社区一起构建人工智能的未来

关于

关于我们数据集支持

产品

报道教程数据集百科

链接

TVM 中文 Apache TVM

© HyperAI

津ICP备17010941号-1

京公网安备11010502038810号

GitHub Discord X (formerly Twitter)Bilibili