HyperAIHyperAI

Command Palette

Search for a command to run...

超越专业化:评估多语言大型语言模型在年龄和性别估计中的能力

Maksim Kuprashevich Grigorii Alekseenko Irina Tolstykh

摘要

多模态大语言模型(Multimodal Large Language Models, MLLMs)最近获得了极大的关注。强大的商业模型如ChatGPT-4V和Gemini,以及开源模型如LLaVA,本质上都是通用模型,被应用于解决各种任务,包括计算机视觉领域的任务。这些神经网络具备如此强大的通用知识和推理能力,以至于它们在未专门训练的任务上也表现出色。我们对迄今为止最强大的MLLMs——ShareGPT4V、ChatGPT和LLaVA-Next——在一项专门的年龄和性别估计任务中进行了比较,该任务使用了我们最先进的专用模型MiVOLO。此外,我们还更新了MiVOLO,并在本文中提供了详细的说明和新的评估指标。这一比较产生了一些有趣的结果和见解,揭示了参与模型的优势和劣势。进一步地,我们尝试了多种方法来微调ShareGPT4V模型以应对这一特定任务,旨在实现该挑战中的最先进水平。尽管这种模型在生产环境中并不实用,因为它相比专用模型MiVOLO而言成本极高,但在某些任务中(如数据标注)仍可能非常有用。


用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码
开箱即用的 GPU
最优定价

HyperAI Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供