five

VitaBench

收藏
github2025-10-30 更新2025-10-31 收录
下载链接:
https://github.com/meituan-longcat/vitabench
下载链接
链接失效反馈
官方服务:
资源简介:
VitaBench是一个具有挑战性的基准,用于评估在现实世界设置中的多样化交互任务上的代理。它基于外卖、店内消费和在线旅游服务等日常应用,提供了最复杂的生活服务模拟环境,包括66个工具。通过消除领域特定策略的框架,实现了这些场景和工具的灵活组合,产生了100个跨场景任务和300个单场景任务。每个任务源自多个真实用户请求,要求代理在时间和空间维度上推理,利用复杂工具集,主动澄清模糊指令,并在多轮对话中跟踪变化的用户意图。

VitaBench is a challenging benchmark for evaluating agents on diverse interactive tasks in real-world scenarios. Rooted in daily applications such as food delivery, in-store shopping, and online travel services, it provides the most sophisticated simulated environments for life services, encompassing 66 tools. By utilizing a framework that eliminates domain-specific policies, it enables flexible combinations of these scenarios and tools, resulting in 100 cross-scenario tasks and 300 single-scenario tasks. Each task is derived from multiple real-world user requests, requiring agents to reason across temporal and spatial dimensions, leverage a complex toolset, proactively clarify ambiguous instructions, and track evolving user intentions during multi-turn conversations.
创建时间:
2025-10-14
原始信息汇总

VitaBench 数据集概述

数据集简介

VitaBench 是一个用于评估大语言模型代理的基准测试套件,专注于现实世界应用中的多样化交互任务。该数据集基于美团的外卖、到店消费和在线旅游服务等日常应用场景构建。

核心特性

  • 任务类型:包含跨场景任务(100个)和单场景任务(300个)
  • 工具支持:提供66个工具组成的复杂工具集
  • 评估维度:要求代理在时间和空间维度上进行推理,使用复杂工具集,主动澄清模糊指令,并在多轮对话中跟踪用户意图变化

数据统计

数据库规模

数据类别 跨场景 外卖 到店 OTA
服务提供商 1,324 410 611 1,437
产品 6,946 788 3,277 9,693
交易记录 447 48 28 154

API工具分布

工具类型 跨场景 外卖 到店 OTA
写入操作 27 4 9 14
读取操作 33 10 10 19
通用工具 6 6 5 5

评估结果

当前最先进的模型在跨场景任务上的成功率仅为30%,在其他任务上的成功率低于50%。

相关资源

  • 论文:https://arxiv.org/abs/2509.26490
  • 官方网站:https://vitabench.github.io/
  • 排行榜:https://vitabench.github.io/#Leaderboard
  • 数据集地址:https://huggingface.co/datasets/meituan-longcat/VitaBench

引用格式

bibtex @article{he2025vitabench, title={VitaBench: Benchmarking LLM Agents with Versatile Interactive Tasks in Real-world Applications}, author={He, Wei and Sun, Yueqing and Hao, Hongyan and Hao, Xueyuan and Xia, Zhikang and Gu, Qi and Han, Chengcheng and Zhao, Dengchang and Su, Hui and Zhang, Kefeng and Gao, Man and Su, Xi and Cai, Xiaodong and Cai, Xunliang and Yang, Yu and Zhao, Yunke}, journal={arXiv preprint arXiv:2509.26490}, year={2025} }

搜集汇总
数据集介绍
main_image_url
构建方式
在人工智能代理评估领域,VitaBench通过整合现实世界中的外卖配送、店内消费和在线旅游服务等多样化场景,构建了一个包含66种工具的复杂模拟环境。该数据集基于真实用户请求,采用消除领域特定策略的框架,实现了跨场景任务的灵活组合,最终形成了100项跨场景核心任务与300项单场景任务。每个任务设计均强调时空维度的推理能力,要求代理在多轮对话中处理模糊指令并追踪动态变化的用户意图。
特点
VitaBench的突出特点在于其高度仿真的生活服务场景覆盖与工具复杂性。数据集囊括1,324家服务提供商、6,946种商品及447条交易记录,并配备27个写入类、33个读取类及6个通用类API工具。通过支持单领域与跨领域任务的自由配置,该基准测试能有效评估代理在真实环境中的多维度交互能力。其独创的基于量规的滑动窗口评估机制,可精准捕捉复杂随机交互中不同的解决路径表现。
使用方法
使用者可通过安装VitaBench代码库并配置模型参数快速启动评估流程。运行命令支持指定单一或混合领域(如外卖、店内、旅游服务),并灵活设置代理模型、思维模式启用、并发数量等参数。评估系统提供中英文双语支持,结果将自动保存至指定路径。对于已完成的模拟,用户可通过重评估功能结合不同评估模型进行多次分析,并通过可视化工具直观查看任务执行细节与性能指标。
背景与挑战
背景概述
在人工智能代理技术快速发展的背景下,美团研究团队于2025年推出了VitaBench基准测试集,专注于评估大型语言模型在现实交互任务中的综合能力。该数据集源自外卖配送、店内消费和在线旅游服务等日常生活场景,构建了包含66种工具的复杂仿真环境,涵盖100项跨场景任务和300项单场景任务。其核心研究问题在于解决智能代理在时空推理、多轮对话意图追踪及模糊指令主动澄清等方面的局限性,通过消除领域特定策略的框架设计,显著推动了实用化AI代理在复杂现实应用中的发展进程。
当前挑战
VitaBench面临的领域挑战主要体现为智能代理需在动态多模态环境中执行跨领域工具组合与长期规划,当前最先进模型在跨场景任务中成功率仅达30%。构建过程中的技术挑战包括:如何从海量真实用户请求中提炼具有时空维度的复杂任务逻辑,设计支持66种工具灵活调用的统一接口,以及开发基于滑动窗口的鲁棒评估体系以应对交互过程中的随机性与多解路径问题。
常用场景
经典使用场景
在智能代理系统研究领域,VitaBench通过整合外卖配送、店内消费及在线旅游服务三大现实场景,构建了包含66种工具的复杂交互环境。该数据集支持单领域与跨领域任务的灵活配置,尤其擅长评估代理在时空维度推理、多轮对话意图追踪及模糊指令主动澄清等核心能力。其100项跨场景任务与300项单场景任务的设计,为智能代理在动态环境中的工具组合与策略规划提供了标准化测试平台。
衍生相关工作
基于VitaBench的评估框架,研究社区已衍生出多项工具增强推理与跨模态交互的创新工作。其启发的渐进式课程学习策略在复杂任务分解中取得显著进展,而动态意图建模方法则推动了多轮对话系统的技术迭代。该数据集构建的标准化评估体系,进一步促进了如ToolBench、WebArena等交互式基准的协同发展,形成智能代理能力评估的方法论闭环。
数据集最近研究
最新研究方向
在人工智能代理领域,VitaBench作为专注于生活服务场景的基准测试框架,正推动多模态交互任务的前沿探索。该数据集通过整合外卖配送、店内消费和在线旅游三大真实应用场景,构建了包含66种工具的复杂模拟环境,其核心突破在于消除领域特定策略的约束,实现了跨场景任务的灵活组合。当前研究聚焦于提升大型语言模型在时空推理、模糊指令澄清和动态意图追踪等方面的能力,尤其关注多轮对话中用户意图漂移的应对机制。基于滑动窗口的评估体系为异构解决方案路径提供了稳健的量化标准,而现有模型在跨场景任务中不足30%的成功率,揭示了智能代理在现实应用中的认知鸿沟。这一基准不仅为产业级AI代理的可靠性验证树立了新范式,更通过开源生态促进了学术界与工业界的协同创新。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作