7 个月前

摘要

大型语言模型（LLM）代理在解决现实世界问题方面展现出巨大潜力，并有望成为工业任务自动化的解决方案。然而，为了从工业角度系统地评估自动化代理，还需要更多的基准测试，例如在土木工程领域。因此，我们提出了DrafterBench，用于全面评估LLM代理在技术图纸修订这一土木工程代表性任务中的表现。DrafterBench包含从实际图纸文件中总结出的十二种类型的任务，共有46个定制的功能/工具和1920个任务。DrafterBench是一个开源基准测试平台，旨在严格测试AI代理在解释复杂和长上下文指令、利用先验知识以及通过隐式策略意识适应动态指令质量方面的熟练程度。该工具包全面评估了代理在结构化数据理解、功能执行、指令遵循和关键推理等方面的不同能力。DrafterBench提供了任务准确性和错误统计的详细分析，旨在更深入地了解代理的能力并确定将LLMs集成到工程应用中的改进目标。我们的基准测试平台可在https://github.com/Eason-Li-AIS/DrafterBench获取，测试集托管于https://huggingface.co/datasets/Eason666/DrafterBench。

源 PDF 查看代码