Navi-Bench

github2025-11-19 更新2025-11-21 收录

下载链接：

https://github.com/yutori-ai/navi-bench

下载链接

链接失效反馈

官方服务：

资源简介：

Navi-Bench数据集可在HuggingFace上获取，包含来自五个真实网站的100个任务：Apartments、Craigslist、OpenTable、Resy和Google Flights。

Navi-Bench数据集可在HuggingFace平台获取，共包含来自Apartments、Craigslist、OpenTable、Resy及Google Flights这五个真实网站的100项任务。

创建时间：

2025-11-19

原始信息汇总

Yutori Navi-Bench 数据集概述

数据集简介

Yutori Navi-Bench是一个用于评估网络代理在真实网站上执行日常任务的基准测试数据集。

数据集内容

任务数量：100个任务
网站来源：5个真实网站
涵盖网站：Apartments、Craigslist、OpenTable、Resy、Google Flights

数据集获取

主要地址：https://huggingface.co/datasets/yutori-ai/navi-bench
备用数据集：Westworld（来自Halluminate，包含5个模拟环境，适用于电子商务和旅行任务）

技术特性

支持直接从HuggingFace加载数据集
与Westworld数据集格式兼容，可直接连接进行联合评估
大多数评估器依赖站点状态进行验证

使用方式

python from datasets import load_dataset from navi_bench.base import DatasetItem, instantiate

dataset = load_dataset("yutori-ai/navi-bench") task_item = DatasetItem.model_validate(dataset[0]) task_config = task_item.generate_task_config()

许可证

Apache License 2.0

引用格式

bibtex @misc{yutori2025navigator, author = {Yutori}, title = {Introducing Navigator}, howpublished = {url{https://yutori.com/blog/introducing-navigator}}, note = {Yutori Blog}, year = {2025}, }

搜集汇总

数据集介绍

构建方式

在网页智能体评估领域，Navi-Bench数据集通过精心筛选真实网站中的日常任务构建而成。该数据集涵盖五个高频率使用的网站平台，包括公寓租赁、二手交易、餐厅预订及航班查询等场景，每个任务均基于实际用户操作流程设计。构建过程中采用标准化标注方法，确保任务指令与评估指标的一致性，为网页交互智能体的性能验证提供可靠基础。

使用方法

研究人员可通过HuggingFace平台直接加载数据集，利用内置的实例化接口快速配置任务环境。使用过程中需配合浏览器自动化工具，通过迭代式评估机制实时追踪智能体行为。特别需要注意的是，由于评估器依赖网页实时状态进行验证，应在浏览器会话保持期间完成全部计算步骤，以确保评估结果的准确性。

背景与挑战

背景概述

随着人工智能技术在网页交互领域的深入应用，Yutori团队于2025年推出了Navi-Bench基准数据集，旨在评估智能代理在真实网站环境中执行日常任务的能力。该数据集聚焦于网页自动化代理的核心研究问题，即如何模拟人类在复杂网页界面中的导航与操作行为，覆盖了公寓租赁、商品交易、餐厅预订及航班查询等五大实际场景。其构建基于真实网站数据，为网页智能体研究提供了标准化评估框架，显著推动了人机交互与自动化任务处理领域的发展。

当前挑战

Navi-Bench数据集致力于解决网页智能体在动态真实环境中的任务执行挑战，包括跨网站的多步骤操作语义理解、界面元素动态加载的适应性以及任务完成度的精确验证。在构建过程中，面临的主要困难在于真实网站结构的异构性与交互逻辑的复杂性，需确保任务配置能准确反映实际使用场景；同时，评估机制需克服网页状态实时捕获与验证的技术瓶颈，以保证评测结果的可靠性与一致性。

常用场景

经典使用场景

在智能体交互研究领域，Navi-Bench作为真实网站环境下的评估基准，其典型应用场景聚焦于对网络智能体日常任务执行能力的系统性评测。该数据集通过整合公寓租赁、商品交易、餐厅预订及航班查询等五大现实网站平台，构建了涵盖100项任务的多维度测试环境，为评估智能体在动态网页中的导航、表单填写与多步骤操作能力提供了标准化框架。

解决学术问题

该数据集有效应对了网络智能体研究中环境真实性不足与评估维度单一的核心挑战。通过直接对接真实网站交互场景，它解决了传统模拟环境中存在的领域泛化能力薄弱、动态元素处理困难等关键问题，为验证智能体在开放网络环境下的鲁棒性与适应性提供了重要实验基础，显著推进了具身智能在复杂信息空间中的认知决策研究进程。

实际应用

在实际应用层面，Navi-Bench为智能助手与自动化流程开发提供了关键验证平台。其构建的跨领域任务体系可直接支撑智能客服系统、在线预订机器人等实际产品的性能优化，通过模拟真实用户操作路径，帮助企业精准评估自动化解决方案在多变网络环境中的执行效率与稳定性，大幅降低现实场景部署前的试错成本。

数据集最近研究