Vending-Bench

Name: Vending-Bench
Creator: Andon Labs
Published: 2025-02-20 23:52:29
License: 暂无描述

arXiv2025-02-20 更新2025-02-27 收录

下载链接：

http://arxiv.org/abs/2502.15840v1

下载链接

链接失效反馈

官方服务：

资源简介：

Vending-Bench是一个模拟环境，专为测试基于大型语言模型（LLM）的智能体在长期连贯性方面的能力而设计。智能体需要管理一个简单且长期的商业场景：操作自动售货机。该数据集模拟了智能体与供应商的沟通、客户购买行为等，以评估智能体在长期时间跨度（超过20M tokens的运行）上的持续、连贯决策能力。

Vending-Bench is a simulated environment specifically designed to evaluate the long-term coherence capabilities of large language model (LLM)-powered AI Agents. Agents are required to manage a simple yet long-term commercial scenario: operating vending machines. This dataset simulates communications between agents and suppliers, customer purchase behaviors, and other related scenarios, to assess the agents' sustained and coherent decision-making abilities over an extended time horizon with a runtime exceeding 20 million tokens.

提供机构：

Andon Labs

创建时间：

2025-02-20

搜集汇总

数据集介绍

构建方式

Vending-Bench数据集构建了一个模拟环境，用于测试大型语言模型（LLM）在长期任务中的连贯性。在这个环境中，LLM代理需要管理一个自动售货机业务，包括库存管理、订货、定价和处理日常费用等任务。这些任务在短期内可能很简单，但在长期运行中，它们对LLM的持续、连贯的决策能力提出了挑战。数据集通过模拟真实世界中的业务运营，为LLM代理提供了测试其长期连贯性的平台。

使用方法

Vending-Bench数据集的使用方法包括以下步骤：首先，用户需要选择一个LLM代理，并将其部署在模拟环境中。然后，用户需要设置环境配置参数，例如初始资金余额和日常费用等。接下来，用户可以启动模拟运行，并观察LLM代理在长期任务中的表现。最后，用户可以根据LLM代理的净值得分和其他指标来评估其性能。

背景与挑战

背景概述

Vending-Bench数据集是一项旨在评估大型语言模型（LLMs）在长时间跨度内保持一致性的基准测试。该数据集由Andon Labs的Axel Backlund和Lukas Petersson于2025年创建，旨在模拟一个自动售货机的运营场景，要求LLM代理进行库存管理、下单、定价和日常费用处理。通过这一长期运行的商业场景，研究人员可以观察LLM代理在超过2000万tokens的运行长度内的决策连贯性。Vending-Bench的创建旨在帮助研究人员更好地理解LLMs在长时间跨度内的性能表现，并为此类模型的进一步发展提供参考。

当前挑战

Vending-Bench数据集的研究挑战主要集中在LLMs在长时间跨度内的连贯性上。研究发现，尽管某些LLMs在某些运行中表现出色，但所有模型在长时间运行后都出现了性能波动，有的甚至完全停止销售。这些失败通常是由于代理误解其运营状态（例如，错误地认为订单已经到达）而导致的，随后代理可能会陷入无关紧要的循环或放弃任务。此外，尽管LLMs具有处理长输入的能力，但研究发现，即使在没有内存限制的情况下，性能下降也可能发生，这表明内存限制可能不是导致性能下降的唯一因素。这些挑战突出了LLMs在长时间跨度内保持一致性的困难，并表明需要进一步的研究来提高这些模型的长期连贯性。

常用场景

经典使用场景

Vending-Bench 是一个模拟环境，旨在测试基于大型语言模型（LLM）的智能体在长期运行场景下的决策一致性和管理能力。在这个环境中，智能体需要管理自动售货机，包括库存管理、订货、定价和日常费用处理等任务。每个子任务看似简单，但随着运行时间的增加，智能体的一致性和决策能力将面临挑战。

解决学术问题

Vending-Bench 解决了长期以来 LLM 在长期运行场景下决策一致性和管理能力不足的问题。该数据集通过模拟长期运行的商业场景，揭示了 LLM 在处理长时间跨度任务时的性能差异和失败模式。这些发现有助于研究者更好地理解 LLM 的局限性，并为未来的研究和改进提供方向。

实际应用

Vending-Bench 的实际应用场景广泛，包括但不限于 AI 安全研究、商业决策支持、自动化管理等领域。通过模拟长期运行的商业场景，Vending-Bench 可以为研究者提供一个评估和测试 LLM 能力的平台，从而推动 AI 技术在现实世界中的应用。

数据集最近研究