Vending-Bench

Name: Vending-Bench
Creator: Transport and Telecommunication Institute
Published: 2025-09-30 22:43:05
License: 暂无描述

arXiv2025-09-30 更新2025-10-02 收录

下载链接：

https://sourceforge.net/projects/supply-chain-competition-game/files/(file of the simulator is ―OnePlayer2024r1protectedblank8.xlsx‖)

下载链接

链接失效反馈

官方服务：

资源简介：

Vending-Bench是一个用于评估大型语言模型在商业决策中的长期一致性的模拟环境。该数据集通过模拟零售公司的运营，提供了动态的、逐月的管理模拟，让LLMs在每个月都根据前一个月的完整商业报告做出关键的战略决策。数据集的内容包括产品定价、订单规模、营销预算、招聘、解雇、贷款、培训费用、研发费用、销售预测、收入预测等。该数据集旨在评估LLMs在长期决策中的战略一致性、对市场变化的适应性以及决策的合理性。

Vending-Bench is a simulated environment for evaluating the long-term consistency of large language models (LLMs) in business decision-making. This dataset simulates the operations of retail enterprises, offering dynamic, month-over-month management simulations where LLMs make critical strategic decisions each month based on the complete business report from the preceding month. The dataset covers aspects including product pricing, order quantities, marketing budgets, hiring, employee layoffs, loan arrangements, training expenditures, R&D expenditures, sales forecasts, revenue forecasts, and more. This dataset is designed to evaluate the strategic consistency, adaptability to market changes, and decision-making rationality of LLMs in long-term business decision scenarios.

提供机构：

Transport and Telecommunication Institute

创建时间：

2025-09-30

搜集汇总

数据集介绍

构建方式

在管理决策模拟领域，Vending-Bench通过构建一个动态的零售业务仿真环境来评估大型语言模型的战略决策能力。该数据集以电子表格模型为核心，模拟了一家虚构零售公司在12个月内的运营过程，涵盖定价、订单规模、营销预算等十个关键决策变量。仿真环境采用透明且可复现的设计，每月根据模型决策更新市场反馈，形成闭环实验框架，确保了数据生成过程的系统性和可比性。

特点

Vending-Bench的突出特点在于其长时程决策连贯性评估框架，能够捕捉模型在动态市场环境中的战略适应性。数据集包含多维绩效指标，包括利润、收入、市场份额等定量数据，同时记录模型决策的定性理由，为分析战略一致性提供丰富依据。其仿真机制融入需求弹性、竞争互动等现实商业要素，使得评估结果更具生态效度，突破了传统离散任务评测的局限。

使用方法

使用该数据集时，研究者通过结构化提示将大型语言模型设定为虚拟首席执行官角色，逐月输入包含完整商业报告的前期结果。模型需基于历史数据和市场条件输出下一周期的战略决策，系统自动记录决策内容及其对应的仿真结果。该方法支持对模型长期决策逻辑的定量比较与定性分析，可通过开源电子表格文件复现实验流程，为后续研究提供标准化评测基准。

背景与挑战

背景概述

随着大语言模型在自然语言处理任务中展现出卓越能力，其应用于复杂管理决策的潜力逐渐受到学界关注。Vending-Bench数据集由Transport and Telecommunication Institute的研究团队于2025年创建，旨在填补大语言模型在长期战略决策评估领域的空白。该数据集通过构建动态零售企业仿真环境，系统评估Gemini、ChatGPT等主流模型在定价、生产、营销等综合决策中的表现，推动了人工智能在管理科学领域的范式转移，为构建自动化决策支持系统提供了重要基准。

当前挑战

该数据集需解决管理决策中多周期战略连贯性的核心难题，包括模型在动态市场环境中保持长期决策一致性的能力，以及应对供应链波动、需求变化等复杂因素的适应性。构建过程中面临仿真环境真实性与可控性的平衡挑战，需设计具有财务、人力、环境等多维度交互的闭环系统，同时确保实验流程的透明性与可复现性。此外，跨模型决策逻辑的量化比较与质性分析相结合的方法论创新，亦是本研究的重要突破点。

常用场景

经典使用场景

在商业管理仿真领域，Vending-Bench作为评估大型语言模型长期决策能力的基准平台，通过模拟零售企业在十二个月周期内的动态运营环境，系统性地测试模型在定价、生产、营销等关键业务环节的连贯性决策表现。该数据集通过电子表格模型构建透明可控的实验环境，使研究人员能够观察不同模型在面临市场波动、竞争压力等复杂情境时的战略调整能力，为比较各类模型在长期商业决策中的表现提供了标准化框架。

解决学术问题

该数据集有效解决了人工智能领域对长期连贯性决策能力评估的缺失问题，填补了现有基准测试在动态商业环境模拟方面的空白。通过构建多周期、多变量的管理仿真系统，研究者能够深入探究大型语言模型在战略一致性、市场适应性及风险预见性等方面的表现差异，为理解生成式AI在复杂管理系统中的潜力与局限提供了实证依据，推动了人工智能在经营管理领域的应用边界探索。

衍生相关工作

基于Vending-Bench的基准框架，衍生出多维度的大型语言模型评估研究。相关研究深入分析了不同模型在库存管理、资金运作、人力资源配置等细分领域的表现差异，探索了模型决策逻辑与经典管理理论的契合度。这些工作不仅拓展了AI在运营管理、供应链优化等专业领域的应用场景，还为开发具有领域适应性的专业决策模型奠定了方法论基础，推动了人工智能与经营管理学科的交叉融合。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集