Command Palette

Search for a command to run...

5 个月前

GLAMI-1M:一个多语言图像-文本时尚数据集

Vaclav Kosar; Antonín Hoskovec; Milan Šulc; Radek Bartyzal

GLAMI-1M:一个多语言图像-文本时尚数据集

摘要

我们介绍GLAMI-1M:目前最大的多语言图像-文本分类数据集和基准测试。该数据集包含时尚产品的图像及其描述,每种描述使用13种语言中的一种。191个类别的分类具有高质量注释:测试集中所有10万张图像以及训练集中75%的100万张图像均为人工标注。论文展示了图像-文本分类的基线模型,表明该数据集提出了一个具有挑战性的细粒度分类问题:使用视觉和文本特征的最佳EmbraceNet模型达到了69.7%的准确率。通过修改后的Imagen模型进行的实验还表明,该数据集也适用于基于文本条件的图像生成。数据集、源代码和模型检查点已发布在https://github.com/glami/glami-1m

代码仓库

glami/glami-1m
官方
pytorch

基准测试

基准方法指标
multi-lingual-image-text-classification-onEmbraceNet (image+text)
Top 1 Accuracy %: 69.7
Top 5 Accuracy %: 94.0
multi-lingual-image-text-classification-onCLIP (zero-shot image+text)
Top 1 Accuracy %: 32.3
Top 5 Accuracy %: 74.5

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供