five

Vending-Bench

收藏
arXiv2025-02-20 更新2025-02-27 收录
下载链接:
http://arxiv.org/abs/2502.15840v1
下载链接
链接失效反馈
官方服务:
资源简介:
Vending-Bench是一个模拟环境,专为测试基于大型语言模型(LLM)的智能体在长期连贯性方面的能力而设计。智能体需要管理一个简单且长期的商业场景:操作自动售货机。该数据集模拟了智能体与供应商的沟通、客户购买行为等,以评估智能体在长期时间跨度(超过20M tokens的运行)上的持续、连贯决策能力。

Vending-Bench is a simulated environment specifically designed to evaluate the long-term coherence capabilities of large language model (LLM)-powered AI Agents. Agents are required to manage a simple yet long-term commercial scenario: operating vending machines. This dataset simulates communications between agents and suppliers, customer purchase behaviors, and other related scenarios, to assess the agents' sustained and coherent decision-making abilities over an extended time horizon with a runtime exceeding 20 million tokens.
提供机构:
Andon Labs
创建时间:
2025-02-20
搜集汇总
数据集介绍
main_image_url
构建方式
Vending-Bench数据集构建了一个模拟环境,用于测试大型语言模型(LLM)在长期任务中的连贯性。在这个环境中,LLM代理需要管理一个自动售货机业务,包括库存管理、订货、定价和处理日常费用等任务。这些任务在短期内可能很简单,但在长期运行中,它们对LLM的持续、连贯的决策能力提出了挑战。数据集通过模拟真实世界中的业务运营,为LLM代理提供了测试其长期连贯性的平台。
使用方法
Vending-Bench数据集的使用方法包括以下步骤:首先,用户需要选择一个LLM代理,并将其部署在模拟环境中。然后,用户需要设置环境配置参数,例如初始资金余额和日常费用等。接下来,用户可以启动模拟运行,并观察LLM代理在长期任务中的表现。最后,用户可以根据LLM代理的净值得分和其他指标来评估其性能。
背景与挑战
背景概述
Vending-Bench数据集是一项旨在评估大型语言模型(LLMs)在长时间跨度内保持一致性的基准测试。该数据集由Andon Labs的Axel Backlund和Lukas Petersson于2025年创建,旨在模拟一个自动售货机的运营场景,要求LLM代理进行库存管理、下单、定价和日常费用处理。通过这一长期运行的商业场景,研究人员可以观察LLM代理在超过2000万tokens的运行长度内的决策连贯性。Vending-Bench的创建旨在帮助研究人员更好地理解LLMs在长时间跨度内的性能表现,并为此类模型的进一步发展提供参考。
当前挑战
Vending-Bench数据集的研究挑战主要集中在LLMs在长时间跨度内的连贯性上。研究发现,尽管某些LLMs在某些运行中表现出色,但所有模型在长时间运行后都出现了性能波动,有的甚至完全停止销售。这些失败通常是由于代理误解其运营状态(例如,错误地认为订单已经到达)而导致的,随后代理可能会陷入无关紧要的循环或放弃任务。此外,尽管LLMs具有处理长输入的能力,但研究发现,即使在没有内存限制的情况下,性能下降也可能发生,这表明内存限制可能不是导致性能下降的唯一因素。这些挑战突出了LLMs在长时间跨度内保持一致性的困难,并表明需要进一步的研究来提高这些模型的长期连贯性。
常用场景
经典使用场景
Vending-Bench 是一个模拟环境,旨在测试基于大型语言模型(LLM)的智能体在长期运行场景下的决策一致性和管理能力。在这个环境中,智能体需要管理自动售货机,包括库存管理、订货、定价和日常费用处理等任务。每个子任务看似简单,但随着运行时间的增加,智能体的一致性和决策能力将面临挑战。
解决学术问题
Vending-Bench 解决了长期以来 LLM 在长期运行场景下决策一致性和管理能力不足的问题。该数据集通过模拟长期运行的商业场景,揭示了 LLM 在处理长时间跨度任务时的性能差异和失败模式。这些发现有助于研究者更好地理解 LLM 的局限性,并为未来的研究和改进提供方向。
实际应用
Vending-Bench 的实际应用场景广泛,包括但不限于 AI 安全研究、商业决策支持、自动化管理等领域。通过模拟长期运行的商业场景,Vending-Bench 可以为研究者提供一个评估和测试 LLM 能力的平台,从而推动 AI 技术在现实世界中的应用。
数据集最近研究
最新研究方向
随着大型语言模型(LLMs)在短期任务中展现出卓越的能力,它们在长期内的表现一致性却往往不尽如人意。为了测试LLM代理在长时间跨度内的持续决策能力,研究人员开发了Vending-Bench,这是一个模拟环境,旨在让LLM代理经营自动售货机业务。代理需要平衡库存、下单、定价和处理日常费用,这些看似简单的任务在长时间的运行中会考验LLM的长期一致性和决策能力。研究发现,不同LLM模型在长期运行中的表现存在显著差异,一些模型如Claude 3.5 Sonnet和o3-mini能够在大部分运行中盈利,但所有模型都存在运行失败的情况,例如误解送货时间表、忘记订单或进入难以恢复的“崩溃”循环。这些研究结果突显了LLM在长期运行中的性能波动,同时也测试了模型获取资本的能力,这在许多假想的危险AI场景中是必要的。Vending-Bench有望帮助研究人员为更强大的AI系统的出现做好准备。
相关研究论文
  • 1
    Vending-Bench: A Benchmark for Long-Term Coherence of Autonomous AgentsAndon Labs · 2025年
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作