Odysseys

github2026-04-28 更新2026-05-04 收录

下载链接：

https://github.com/ljang0/Odysseys

下载链接

链接失效反馈

官方服务：

资源简介：

Odysseys是一个包含200个长期网络代理任务的基准数据集，这些任务源自真实的浏览会话，并在实时互联网上进行评估，采用基于评分标准的评分方法。数据集分为45个简单、46个中等和109个困难任务，每个任务包含任务ID、自然语言提示、起始URL、难度级别、参考步骤数、评分标准等字段。

Odysseys is a benchmark dataset containing 200 long-term web browsing agent tasks. These tasks are derived from real-world browsing sessions and evaluated on the live Internet, adopting a criterion-based scoring evaluation method. The dataset is split into three categories: 45 simple tasks, 46 moderate tasks, and 109 difficult tasks. Each task includes fields such as task ID, natural language prompt, starting URL, difficulty level, number of reference steps, and scoring criteria.

创建时间：

2026-04-26

原始信息汇总

数据集概述：Odysseys

Odysseys 是一个用于评估网页智能体（web agent）在长时程任务上表现的基准测试（benchmark），包含 200 个来自真实浏览会话的任务，在真实互联网环境中通过基于评分规则的评估方式进行评测。

数据集构成

任务数量：200 个任务
难度分布：
- 简单（easy）：45 个
- 中等（medium）：46 个
- 困难（hard）：109 个
任务字段：每个任务包含任务 ID、自然语言提示、起始 URL（固定为 Google）、难度等级、参考步骤数、评分规则（rubrics）、以及类别标签

难度划分标准

简单任务：最多 5 步，涉及最多 3 个域名
中等任务：6-8 步，或涉及 4 个及以上域名
困难任务：步骤数超过 8 步且域名数超过 3 个

使用说明

运行环境：基于 OSWorld 框架，在 Ubuntu 虚拟机中运行 Chrome 浏览器，预设 100 步任务预算和最大推理努力
评分方式：对每个评分规则（rubric），使用 LLM 裁判（默认 gemini-3.1-flash-lite-preview）根据轨迹的截屏和操作判断是否满足该规则，满足记为 1，否则为 0
评估指标：
- 平均分（Rubric Avg）：每个任务评分规则得分的均值
- 完美率（Perfect）：所有评分规则均被满足的任务占比
- 平均步数（Avg. Steps）：任务平均执行步数
- 轨迹效率（Traj. Eff.）：任务平均分除以步数，再对所有任务取均值

部分模型评测结果（100 步预算）

模型	Rubric Avg	Perfect (%)	Avg. Steps	Traj. Eff.
Opus 4.6	68.9	44.5	81.3	1.06
GPT-5.4	55.4	33.5	64.4	1.15
Sonnet 4.6	49.8	31.0	80.4	0.79
GPT-5.4 Mini	38.4	10.5	41.7	1.12
Qwen-3.5-VL-9B	42.6	13.5	78.3	0.75
Qwen-3.5-VL-4B	42.9	10.7	86.4	0.69
Qwen-3.5-VL-35B-A3B	28.5	6.5	86.1	0.42
UI-TARS-1.5-7B	10.0	1.0	76.6	0.23

将 Opus 4.6 的预算提升至 200 步，完美率从 44.5% 提升至 76.5%

引用信息

论文：Odysseys: Benchmarking Web Agents on Realistic Long Horizon Tasks (arXiv, 2026)

搜集汇总

数据集介绍

构建方式

Odysseys数据集精心汇集了200项源自真实浏览会话的长周期网络代理任务，并基于实时互联网环境展开评测。数据集按照任务复杂度划分为45项简单、46项中等与109项困难任务，难度分级依据步骤数量与域跨度——简单任务最多涉及5步与3个域，中等任务扩展至6-8步或4个以上域，困难任务则同时超越这两项阈值。每项任务均包含唯一标识符、自然语言提示、起始URL（统一设为谷歌首页）、难度等级、参考步骤数、由需求与验证构成的评分细则，以及来自SimilarWeb的类别标签。最终数据以JSON格式存储于data/odysseys.json中，便于研究者直接调用。

特点

该数据集的核心特色在于其高度真实与长跨度交织的评估框架。任务源于实际用户浏览历程，而非人工合成的简化场景，从而精准反映网络代理在复杂多变环境中的应对能力。评测体系采用基于评分细则的裁判方法，通过引入大型语言模型作为评审，对代理轨迹中的逐帧截图与动作进行细致评估，确保每项规则得到严格验证。此外，数据集提供平均分、完美率与轨迹效率等多维指标，其中轨迹效率巧妙地将平均分与步数相除，从资源消耗角度衡量代理性能，为模型对比提供更为全面的视角。

使用方法

使用者需借助OSWorld运行框架，在配备Chrome浏览器的Ubuntu虚拟机中执行任务，设置100步预算与最大推理努力。首先通过转换脚本将JSON格式任务转化为OSWorld示例文件，生成每项任务的独立运行目录。执行后，利用基于gemini-3.1-flash-lite-preview模型的语言模型裁判，对轨迹中的步骤截图与动作逐条进行规则评判，脚本会自动生成包含逐项分数与按难度汇总的JSON结果文件。支持通过环境变量或.env文件配置OpenAI兼容模型的API密钥，极大简化了评测流程的部署与扩展。

背景与挑战

背景概述

Odysseys数据集由Lawrence Jang、Jing Yu Koh、Daniel Fried和Ruslan Salakhutdinov于2026年联合创建，隶属于卡内基梅隆大学等顶尖研究机构。该基准测试旨在解决现有网络智能体评估任务过于简化、缺乏现实长程交互的困境，通过精心收集200个源自真实浏览会话的长时域任务，覆盖购物、信息检索等复杂场景。每个任务均采用基于评分细则的质量评估，并直接在实时互联网环境中执行，从而更真实地反映智能体在动态网页中的决策能力。Odysseys的出现填补了该领域缺少高生态效度评测工具的空白，其明确的难度分级（简单、中等、困难）与多样化的任务类别，为推动网络智能体从实验室预设走向开放世界应用提供了关键支撑。

当前挑战

Odysseys数据集所应对的核心挑战在于长时域网络任务中的复合决策难题：智能体需在多达上百步的交互中保持目标一致性，并跨多个域筛选有效信息，这对现有模型是个艰巨考验。从构建视角看，首要挑战是任务筛选与难度量化，需从海量用户会话中提炼出覆盖多重维度且生态效度高的样本，同时制定基于步骤数与域数的三级难度划分标准。其次是评估体系的鲁棒性，依赖大型语言模型进行评分细则判定时，需对抗轨迹模糊性与判决偏差，确保基准测试的公平性与可复现性。此外，100步预算下的任务完成率普遍偏低（最优模型仅达44.5%完美率），凸显了现实环境中规划能力、抗干扰性及效率提升的迫切需求。

常用场景

经典使用场景

在长时域自主网络代理的研究领域中，Odysseys数据集被设计为一种高难度的基准测试平台，专门用于评估智能体在真实互联网环境中执行复杂、多步骤任务的综合能力。该数据集包含200个源自真实用户浏览会话的任务，并根据步骤数量和跨域范围划分为简单、中等和困难三个难度层级。研究者通常利用该数据集来测试和比较不同语言模型驱动代理在长时间跨度下的规划、决策与容错性能，尤其是在面对需跨越多个网站、完成多达数十步操作的场景时，从而填补了以往基准测试在任务长度和现实复杂度上的空白。

解决学术问题

此数据集精准回应了当前自主代理研究中缺乏真实、长时域任务评估基准的困境。许多学术工作仅关注短链路的交互或简化模拟环境中的表现，难以反映模型在现实网络交互中的鲁棒性和效率。Odysseys通过引入基于评分规则的多维度评判机制，解决了如何客观度量代理在自由形式、非确定性任务中的成功率这一核心难题。其提出的平均评分率、完美率和轨迹效率等指标，为研究者提供了一个兼顾结果质量与资源消耗的评估框架，显著推动了长时域自主规划与执行的理论进展，并促使业界重新审视现有模型在复杂现实任务上的真实能力边界。

衍生相关工作

自Odysseys发布以来，它催生了一系列旨在提升代理长程规划与执行能力的衍生工作。研究中常用的高性能基线如Opus和GPT系列模型在该基准上的表现被广泛比对，并引出了关于模型规模与轨迹效率之间权衡的深入探讨。此外，基于该数据的评价机制也激励了如UI-TARS、Qwen-VL等视觉-语言模型在网页代理场景下的适配与改进工作。部分研究进一步借鉴其基于评分的细粒度评估方法，将其推广至更广泛的GUI或OS层面的自主任务中。Odysseys提供的开源基础设施和标准化评分脚本，也已成为后续研究者复现结果、开发新算法时不可或缺的参考资源。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集