REAL

Name: REAL
Creator: The AGI Company, Stanford University, University of Oxford, Mercor, Contramont Research, Plato, Independent
Published: 2025-04-18 00:28:46
License: 暂无描述

arXiv2025-04-18 更新2025-04-19 收录

下载链接：

https://realevals.xyz, https://github.com/agi-inc/agisdk

下载链接

链接失效反馈

官方服务：

资源简介：

REAL是一个包含11个高保真、确定性的真实网站模拟的数据集，由The AGI Company创建。这些网站跨越了电子商务、旅游、通信等多个领域，并提供了112个实际任务，反映日常复杂的用户交互需求。数据集通过固定的数据和时间戳，保持了网站的可配置性和确定性，支持自定义的测试设置，并提供了丰富的奖励信号用于训练。

REAL is a dataset containing 11 high-fidelity, deterministic real website simulations created by The AGI Company. These websites span multiple domains including e-commerce, travel and communications, and provide 112 practical tasks that reflect complex daily user interaction requirements. The dataset maintains the configurability and determinism of the websites via fixed data and timestamps, supports custom test configurations, and offers abundant reward signals for training.

提供机构：

The AGI Company, Stanford University, University of Oxford, Mercor, Contramont Research, Plato, Independent

创建时间：

2025-04-16

搜集汇总

数据集介绍

构建方式

REAL数据集通过高保真、公开托管的确定性模拟复现了11个广泛使用的真实网站，涵盖电子商务、旅行、通讯和专业社交等多个领域。这些网站采用现代前端技术栈（如React和Next.js）构建，确保视觉和功能的高度还原。通过固定所有数据、时间戳和用户体验元素，实现了完全确定性的交互环境，同时利用浏览器本地存储实现跨会话的状态持久化。数据集还提供了112项实用任务，模拟日常复杂的用户交互，包括信息检索和状态变更操作。

使用方法

使用REAL数据集时，研究人员可通过两种主要方式与模拟网站交互：基于Playwright的高层次用户命令或基于Chrome DevTools协议的低层次浏览器控制。任务以自然语言指令形式提供，代理通过多轮交互完成任务目标。评估阶段通过程序化比对本地存储状态变化（针对动作型任务）或LLM评分（针对信息检索任务）来判定任务完成度。数据集提供灵活的测试工具链，支持开源和专有代理系统的即插即用评估，同时包含环境重置、状态检查等调试端点，便于研究迭代。

背景与挑战

背景概述

REAL（Benchmarking Autonomous Agents on Deterministic Simulations of Real Websites）是由The AGI Company、斯坦福大学、牛津大学等机构的研究团队于2025年推出的基准测试框架，旨在评估自主代理在真实网站确定性模拟环境中的多轮交互能力。该数据集包含11个高保真、公开托管的跨领域网站复刻（如电商、旅行、社交等），并设计了112项反映真实用户复杂交互的任务。其创新性在于通过完全可控的仿真环境解决了真实网站数据动态变化导致的评估不可复现问题，同时支持对代理行为状态变化的细粒度追踪，为训练和评估提供了明确的奖励信号。REAL填补了现有基准在真实性、安全性和可配置性上的空白，推动了可靠网络代理的研究进程。

当前挑战

REAL针对的核心领域挑战包括：1）真实网站交互的复杂性，如多步骤流程（预订、支付）、动态UI元素（地图、下拉菜单）和状态依赖操作（购物车、登录会话），当前前沿模型成功率仅41%；2）代理需同时处理信息检索（如筛选商品）和状态修改（如提交订单）的复合任务。构建过程中的技术挑战则体现为：1）保持仿真网站功能与视觉的高保真度，需使用React/Next.js现代技术栈精确复现交互逻辑；2）确保环境完全确定性，需固化时间戳、价格等变量数据；3）设计可扩展的评估框架，需兼容Playwright高级指令和Chrome DevTools底层协议两种交互模式。

常用场景

经典使用场景

REAL数据集作为评估自主代理在真实网站模拟环境中性能的基准，广泛应用于多轮交互任务的测试。其高保真度和确定性特性使得研究人员能够在电子商务、旅行预订、社交网络等多样化场景中，精确评估代理的信息检索和状态修改能力。通过模拟11个主流网站的真实交互流程，REAL为代理的复杂任务执行提供了标准化的测试平台。

解决学术问题

REAL数据集解决了当前自主代理研究中缺乏真实、可复现评估环境的难题。通过提供确定性模拟网站和112项实际任务，它填补了现有基准在任务复杂性、环境真实性和安全性方面的空白。该数据集特别针对代理在动态网页中的多步推理、错误恢复和状态跟踪等核心挑战，为提升代理的可靠性和泛化能力提供了关键研究工具。

实际应用

在实际应用层面，REAL为开发能够处理日常网络任务的AI助手奠定了基础。其模拟的电子商务交易、行程规划、邮件管理等场景，直接对应现实中的自动化需求。数据集支持的强化学习框架还可用于训练商业代理系统，如智能客服、自动化办公助手等，显著提升数字工作流程的效率。

数据集最近研究