VitaBench

arXiv2025-10-01 更新2025-11-20 收录

下载链接：

https://hf-mirror.com/datasets/meituan-longcat/VitaBench

下载链接

链接失效反馈

官方服务：

资源简介：

VitaBench是一个用于评估语言模型在现实世界应用中处理复杂交互任务的基准数据集。它由美团长猫团队构建，包含66个工具，涵盖了外卖、店内消费和在线旅游服务三个领域。数据集包含400个评估任务，分为单场景和跨场景两种设置，每个任务都来源于多个真实用户请求，并配备了独立的环境，包括用户画像、时空上下文和服务数据库。VitaBench旨在帮助研究人员开发能够处理现实世界复杂挑战的AI代理。

VitaBench is a benchmark dataset for evaluating language models' capabilities in handling complex interactive tasks in real-world applications. It was developed by the Changmao Team of Meituan, and includes 66 tools covering three domains: food delivery, in-store consumption, and online travel services. The dataset contains 400 evaluation tasks, which are divided into two settings: single-scenario and cross-scenario. Each task is derived from multiple real-world user requests and is equipped with an independent environment including user profiles, spatiotemporal context, and service databases. VitaBench aims to assist researchers in developing AI Agents that can handle complex real-world challenges.

提供机构：

美团

创建时间：

2025-10-01

搜集汇总

数据集介绍

构建方式

VitaBench通过系统化抽象现实生活服务场景构建而成，涵盖外卖配送、到店消费和在线旅行三大领域。研究团队基于真实应用实现简化出66个核心API工具，将其依赖关系建模为有向图结构，自然编码领域规则至工具拓扑中。任务创建阶段整合真实用户请求形成复合目标，结合人工标注的用户画像、时空上下文及服务数据库，构建包含400个任务的评估集，其中跨场景任务达100个，单场景任务300个。每个任务环境均配备独立数据库，通过混合目标选项与干扰选项形成复杂搜索空间。

特点

该数据集显著特征在于三维复杂度框架的完整实现：推理复杂度体现为处理多模态环境信息与时空维度推理需求；工具复杂度通过66个工具构成的依赖图呈现，其节点基数与边密度反映结构化导航难度；交互复杂度则通过配备行为属性的用户模拟器实现，支持长达50-100轮的多轮对话。数据集特别强调跨场景任务设计，要求智能体在不同领域语境间灵活切换，其评估体系采用基于量规的滑动窗口评估器，能有效追踪长轨迹中多样化解决方案的进展。

使用方法

使用VitaBench时需部署部分可观测马尔可夫决策过程框架，智能体通过函数调用与对话两种动作类型与环境交互。评估流程包含四个独立运行周期，采用温度参数为零的确定性输出模式。用户模拟器基于真实用户画像生成渐进式信息披露，评估器通过滑动窗口机制处理长轨迹，持续追踪量规状态变化。研究者在配置工具图谱与数据库后，可调用标准提示模板启动智能体与环境的交互循环，最终通过严格的全有或全无评分机制衡量任务完成度，同时支持细粒度错误模式分析。

背景与挑战

背景概述

随着基于大语言模型的智能体在现实场景中的广泛应用，现有基准测试难以捕捉其处理海量信息、整合多元资源及管理动态用户交互的固有复杂性。为此，美团LongCat团队于2025年提出了VitaBench基准，聚焦外卖配送、到店消费与在线旅游三大生活服务领域，构建了包含66种工具的复杂模拟环境。该数据集通过解耦领域特定策略，实现了跨场景任务组合，核心研究目标在于系统评估智能体在真实应用中应对多维复杂性的能力，为推进实用化智能体发展提供了关键评估框架。

当前挑战

VitaBench面临的领域挑战集中于智能体在现实服务场景中的综合能力缺陷：跨领域任务要求模型在时空维度进行复合推理，并动态管理多轮对话中的用户意图漂移，当前最优模型在跨场景任务中成功率仅达30%。构建过程中的技术挑战包括：需模拟真实用户行为的不确定性，设计支持长轨迹评估的滑动窗口机制，以及平衡工具依赖图的复杂度与任务可行性，确保400项任务既保留真实数据特征又具备可复现性。

常用场景

经典使用场景

在人工智能代理研究领域，VitaBench作为评估大型语言模型代理能力的基准平台，其经典应用场景聚焦于多领域交叉任务处理。该数据集通过构建涵盖外卖配送、店内消费和在线旅行服务的66种工具，模拟真实世界复杂交互环境，使研究者能够系统评估代理在时空推理、工具组合运用及动态意图追踪等方面的综合表现。尤其值得注意的是其设计的跨场景任务要求代理在不同领域间灵活切换，为评估通用智能代理提供了标准化测试框架。

实际应用

在产业实践层面，VitaBench直接对应生活服务领域的数字化需求，其构建的仿真环境已应用于外卖平台智能客服、旅行规划助手和跨场景服务协调等实际系统。通过模拟真实用户画像与行为属性，该数据集助力开发具备个性化服务能力的商业代理系统，特别是在处理包含时空约束的复合需求时，为优化多轮对话策略和错误恢复机制提供了关键训练场景。

衍生相关工作

该数据集催生了系列重要研究进展，包括基于滑动窗口的轨迹评估方法、工具依赖图建模技术以及用户模拟器的可靠性验证框架。受其启发，后续工作如τ-Bench的扩展版本进一步探索了双重控制环境下的代理评估，而UserBench则专注于偏好驱动的交互研究。这些衍生研究共同推动了面向开放域的工具学习范式演进，为构建更鲁棒的现实世界代理系统奠定了方法论基础。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集