HyperAI超神经

上周，一个由西雅图艾伦人工智能研究所（Ai2）开发的名为SciArena的新基准平台发布了对23个大型语言模型（LLM）在回答科学问题上的排名。o3，这是ChatGPT创建者OpenAI推出的最新AI模型，在超过13000次投票后，被102名研究人员评选为自然科学研究、医疗保健、工程以及人文学和社会科学领域最佳回答AI工具。来自中国的DeepSeek公司的DeepSeek-R1位居第二，谷歌的Gemini-2.5-Pro则排名第三。 SciArena的评测方式独特，通过随机选择两个模型来回答相同的研究问题，并提供从艾伦研究所开发的Semantic Scholar中提取的引用作为支持证据。研究者们随后对这些答案的质量进行投票，评估其中一个模型是否提供了更好的答案，或是两个模型不相上下，甚至都表现不佳。这一过程确保了评估的公平性和客观性，同时也为研究者们提供了一个深入了解不同模型性能的机会。 o3之所以能在多个领域名列前茅，可能与其详细引用科研文献和技术细节的能力有关。艾伦研究所的研究科学家Arman Cohan指出，o3的回答通常包含大量的文献引用，并且能够精准地回答技术层面的问题。然而，解释为何各模型表现存在差异仍是一项挑战，因为大多数模型都是专有软件，其内部机制和训练数据并不公开透明。其他因素，如模型优化的目标和训练数据的质量，也可能影响模型的表现。 SciArena不仅为研究者们提供了一个免费的平台来测试和比较不同模型在科学领域的表现，还鼓励了对LLM辅助文献任务的仔细评估。悉尼大学的人工智能研究员Jonathan Kummerfeld认为，能够向LLM提问并获得可靠的答案，将帮助研究者们更快地了解其研究领域内的最新进展，找到他们可能错过的研究成果。同样，澳大利亚国立大学的机器人与AI研究员Rahul Shome也表示，SciArena是一个积极的努力方向，有助于推动AI技术在科研中的应用。目前，SciArena已经向公众开放，用户可以免费在其平台上提出研究问题并获得两个模型的回答，同时还可以对模型表现进行投票。不过，只有经过验证同意相关条款的用户投票才会被计入排行榜，公司承诺会频繁更新排行榜。业内人士普遍认为，SciArena这样的平台对于推动AI在科学研究中的应用具有重要意义。它不仅为研究者提供了一个便捷的工具，还促进了不同AI模型之间的竞争与改进，最终将带来更加准确和可靠的科学信息处理能力。OpenAI和艾伦人工智能研究所均在各自的领域内享有较高声誉，此次合作进一步提升了它们在AI科研应用方面的影响力。

相关链接

相关链接

相关链接

视觉真实之外：清华 WorldArena 全新评测体系揭示具身世界模型的能力鸿沟

视觉真实之外：清华 WorldArena 全新评测体系揭示具身世界模型的能力鸿沟

Command Palette

OpenAI 的 o3 成为科学问答领域的新王者，领先 DeepSeek 和谷歌 Gemini

相关链接

Command Palette

OpenAI 的 o3 成为科学问答领域的新王者，领先 DeepSeek 和谷歌 Gemini

相关链接

Command Palette

OpenAI 的 o3 成为科学问答领域的新王者，领先 DeepSeek 和谷歌 Gemini

相关链接

视觉真实之外：清华 WorldArena 全新评测体系揭示具身世界模型的能力鸿沟

视觉真实之外：清华 WorldArena 全新评测体系揭示具身世界模型的能力鸿沟