Command Palette
Search for a command to run...
Vaclav Kosar; Antonín Hoskovec; Milan Šulc; Radek Bartyzal

摘要
我们介绍GLAMI-1M:目前最大的多语言图像-文本分类数据集和基准测试。该数据集包含时尚产品的图像及其描述,每种描述使用13种语言中的一种。191个类别的分类具有高质量注释:测试集中所有10万张图像以及训练集中75%的100万张图像均为人工标注。论文展示了图像-文本分类的基线模型,表明该数据集提出了一个具有挑战性的细粒度分类问题:使用视觉和文本特征的最佳EmbraceNet模型达到了69.7%的准确率。通过修改后的Imagen模型进行的实验还表明,该数据集也适用于基于文本条件的图像生成。数据集、源代码和模型检查点已发布在https://github.com/glami/glami-1m
代码仓库
glami/glami-1m
官方
pytorch
基准测试
| 基准 | 方法 | 指标 | 
|---|---|---|
| multi-lingual-image-text-classification-on | EmbraceNet (image+text) | Top 1 Accuracy %: 69.7 Top 5 Accuracy %: 94.0  | 
| multi-lingual-image-text-classification-on | CLIP (zero-shot image+text) | Top 1 Accuracy %: 32.3 Top 5 Accuracy %: 74.5  |