HyperAI超神经
Back to Headlines

日本AI巨头Shisa.AI发布Shisa V2 405B:日英双语模型超越GPT-4,开启新纪元

18 days ago

近日,一家专注于日语微调的人工智能初创公司Shisa.AI发布了其最新的日英双语模型Shisa V2 405B,引发了科技界的广泛关注。这款基于Llama 3.1的开源模型被誉为“日本有史以来训练的最强大型语言模型”,在多个日语基准测试中超越了GPT-4和GPT-4 Turbo,表现与最新的GPT-4o和DeepSeek-V3相当。这标志着日本本土AI实验室在全球竞争中取得了重要突破,同时也为日语AI应用带来了新的可能性。 Shisa.AI总部位于东京,主要致力于为日本市场开发和部署先进的开源AI语言和语音模型。与此前的模型相比,Shisa V2系列不再进行昂贵的持续预训练和分词器扩展,而是集中优化后训练流程。通过合成数据驱动的方法,该公司显著提升了模型性能。尤其是其核心数据集ultra-orca-boros-en-ja-v1,经过严格的数据过滤、再生和重采样,被认为是最强大的日英双语数据集之一,广泛适用于各种场景来提升基础模型的日语能力。这一数据集已在Apache 2.0许可证下免费开放,为全球开发者提供了宝贵的资源。 Shisa V2系列覆盖了从7B到405B参数的不同规模模型,能满足从轻量级设备到高性能计算的多样化需求。这些模型在日语语法、角色扮演、翻译等多个任务中表现优异,尤其是在Shisa V2 405B版本中,该模型在shisa-jp-ifeval(日语指令遵循测试)、shisa-jp-rp-bench(日语角色扮演基准)和shisa-jp-tl-bench(日英翻译基准)等测试中,大幅优于各自的基础模型。值得注意的是,在训练过程中,Shisa V2 405B还融合了少量韩语和繁体中文数据,增强了跨语言能力,为更多应用场景提供了支持。 除了高性能的模型外,Shisa.AI还通过开源方式推动了全球AI社区的发展。公司的训练日志已在Weights and Biases平台上公开,整个训练过程使用了AWS SageMaker的4节点H100集群,结合了Axolotl、DeepSpeed和Liger Kernel等前沿技术,确保了高效的模型开发。此外,Shisa.AI计划开源其日语专用基准测试工具,进一步助力日语大型语言模型的研究和评估,为全球开发者提供更多便利。 未来,Shisa.AI将继续更新其模型和资源,这不仅意味着日本在全球AI领域地位的进一步提升,也为需要处理复杂日语任务的开发者提供了强有力的支持。AIbase建议相关领域的开发者密切关注Shisa.AI的官方网站和HuggingFace页面,以便及时了解最新的技术动态和模型体验机会。 Shisa.AI的成功证明了即使是在资源相对有限的小型AI实验室,也能在全球竞争中取得一席之地。凭借其在技术上的持续创新和开源共享的精神,Shisa.AI不仅为日语AI的发展做出了重要贡献,还带动了全球AI社区的进步。Shisa.AI此次发布的开源模型和数据集,将为学术研究和商业应用带来更多的可能性,促进日语AI技术的进一步普及和发展。

Related Links