8 个月前

统一多模态

计算机视觉

Maksim Kuprashevich Grigorii Alekseenko Irina Tolstykh

摘要

多模态大语言模型（Multimodal Large Language Models, MLLMs）最近获得了极大的关注。强大的商业模型如ChatGPT-4V和Gemini，以及开源模型如LLaVA，本质上都是通用模型，被应用于解决各种任务，包括计算机视觉领域的任务。这些神经网络具备如此强大的通用知识和推理能力，以至于它们在未专门训练的任务上也表现出色。我们对迄今为止最强大的MLLMs——ShareGPT4V、ChatGPT和LLaVA-Next——在一项专门的年龄和性别估计任务中进行了比较，该任务使用了我们最先进的专用模型MiVOLO。此外，我们还更新了MiVOLO，并在本文中提供了详细的说明和新的评估指标。这一比较产生了一些有趣的结果和见解，揭示了参与模型的优势和劣势。进一步地，我们尝试了多种方法来微调ShareGPT4V模型以应对这一特定任务，旨在实现该挑战中的最先进水平。尽管这种模型在生产环境中并不实用，因为它相比专用模型MiVOLO而言成本极高，但在某些任务中（如数据标注）仍可能非常有用。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

8 个月前

统一多模态

计算机视觉

Maksim Kuprashevich Grigorii Alekseenko Irina Tolstykh

摘要

多模态大语言模型（Multimodal Large Language Models, MLLMs）最近获得了极大的关注。强大的商业模型如ChatGPT-4V和Gemini，以及开源模型如LLaVA，本质上都是通用模型，被应用于解决各种任务，包括计算机视觉领域的任务。这些神经网络具备如此强大的通用知识和推理能力，以至于它们在未专门训练的任务上也表现出色。我们对迄今为止最强大的MLLMs——ShareGPT4V、ChatGPT和LLaVA-Next——在一项专门的年龄和性别估计任务中进行了比较，该任务使用了我们最先进的专用模型MiVOLO。此外，我们还更新了MiVOLO，并在本文中提供了详细的说明和新的评估指标。这一比较产生了一些有趣的结果和见解，揭示了参与模型的优势和劣势。进一步地，我们尝试了多种方法来微调ShareGPT4V模型以应对这一特定任务，旨在实现该挑战中的最先进水平。尽管这种模型在生产环境中并不实用，因为它相比专用模型MiVOLO而言成本极高，但在某些任务中（如数据标注）仍可能非常有用。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供