HyperAIHyperAI

Command Palette

Search for a command to run...

GLAMI-1M:一个多语言图像-文本时尚数据集

Václav Košař Antonín Hoskovec Milan Šulc Radek Bartyzal

摘要

我们介绍GLAMI-1M:目前最大的多语言图像-文本分类数据集和基准测试。该数据集包含时尚产品的图像及其描述,每种描述使用13种语言中的一种。191个类别的分类具有高质量注释:测试集中所有10万张图像以及训练集中75%的100万张图像均为人工标注。论文展示了图像-文本分类的基线模型,表明该数据集提出了一个具有挑战性的细粒度分类问题:使用视觉和文本特征的最佳EmbraceNet模型达到了69.7%的准确率。通过修改后的Imagen模型进行的实验还表明,该数据集也适用于基于文本条件的图像生成。数据集、源代码和模型检查点已发布在https://github.com/glami/glami-1m


用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码
开箱即用的 GPU
最优定价

HyperAI Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供