Back to Headlines

研究人员推出AIM-Bench基准平台,精准评估库存管理中的决策行为与认知偏差

5 天前

南京大学孙宇祥教授及其团队研发了首个专门用于评估大模型智能体在库存管理中决策行为与偏差的基准测试平台——AIM-Bench。该平台涵盖五个不同复杂度的供应链环境,包括报童问题、多周期补货、啤酒游戏、双层仓库网络和供应链网络,均引入了需求波动、交货时间不确定性等现实挑战。 研究发现,大模型普遍存在类似人类的认知偏差。在报童问题中,多数模型表现出“拉向中心效应”:低利润率时过度订购,高利润率时订购不足,主因是锚定于需求均值,而过往实际需求影响较小。在多周期补货中,模型出现“Bracing行为”,即因高估负面风险而过度补货。在啤酒游戏中,所有测试模型均呈现显著“牛鞭效应”,需求波动逐级放大。值得注意的是,框架效应在报童问题中并不显著,改变描述方式(收益 vs 损失)未显著影响决策,说明大模型的决策偏差具有任务依赖性,不能简单套用人类行为理论。 研究还发现,信息共享可显著缓解牛鞭效应,使BWE指数平均下降约60%。例如,Qwen-2.5的BWE从23.07降至10.73。此外,过程指标(如与最优决策的距离)比结果指标(如库存成本、缺货率)更能精准区分模型性能。例如,GPT-4.1与Qwen-2.5缺货率相近,但前者更接近最优决策路径。 AIM-Bench具有广泛应用前景:可用于筛选和训练可靠的AI补货系统,尤其适用于快消、电商、制造等波动性强的场景;可作为供应链培训平台,帮助管理者识别自身认知偏差;可集成至ERP或SCM系统,实现AI决策偏差的实时监测与校正;还可支持人机协同决策,结合AI效率与人类经验,提升复杂环境下的决策鲁棒性。 研究团队在调试“啤酒游戏”时发现,GPT-4o在信息共享下出现“行动追逐”行为,过度模仿他人,虽抑制了牛鞭效应,却丧失策略探索能力,提示信息共享需“适度”。此外,大模型未表现出预期的损失厌恶,凸显其决策机制与人类存在本质差异。 未来,团队计划扩展AIM-Bench,加入运输损失、补货成本、多品类协同等现实因素;探索大模型与强化学习结合,实现偏差自纠正;开发可解释性工具,揭示AI决策逻辑;并推动开源共建。目前,相关技术已在制造业和零售业试点,初步验证了其在降本增效方面的潜力。 孙宇祥强调,AI并非替代人类,而是通过理解其偏差,构建更可信、可解释的人机协同系统。研究目标是推动负责任AI在供应链中的落地,提升企业运营韧性。

Related Links