RewardPrediction

Hugging Face2026-03-07 更新2026-03-08 收录

下载链接：

https://huggingface.co/datasets/YijunShen/RewardPrediction

下载链接

链接失效反馈

官方服务：

资源简介：

RewardPrediction 是一个大规模基准数据集，旨在评估五个多样化文本环境（AlfWorld、ScienceWorld、TextWorld、WebShop 和 BlocksWorld）中的细粒度、逐步奖励预测。该数据集包含 2,454 条独特轨迹，每条轨迹都有密集的奖励标注。为防止启发式奖励攻击，数据集采用配对正负策略构建：正轨迹是专家演示加上边界处的随机交互步骤，负轨迹则是通过随机策略生成的失败轨迹。每条轨迹由一系列交互步骤组成，每个步骤包含目标描述（自然语言目标）、动作（代理执行的具体动作）、观察（环境返回的文本反馈）和奖励（包含原始稀疏奖励、插值的逐步真实奖励以及是否为专家步骤的指示）。

创建时间：

2026-03-04

原始信息汇总

RewardPrediction数据集概述

数据集基本信息

数据集名称: RewardPrediction
发布者: YijunShen
托管平台: Hugging Face
数据集地址: https://huggingface.co/datasets/YijunShen/RewardPrediction
项目网站: https://statefactory.github.io
GitHub仓库: https://github.com/yijunshens/statefactory

数据集定位与目标

RewardPrediction是一个大规模基准数据集，旨在评估跨五个不同文本环境的细粒度、逐步奖励预测能力。

数据集构成

环境覆盖

数据集包含来自五个文本环境的数据：

AlfWorld
WebShop
BlocksWorld
ScienceWorld
TextWorld

数据规模

轨迹总数: 2,454条唯一轨迹
标注密度: 密集奖励标注

数据结构策略

采用配对正负策略以防止启发式奖励黑客攻击：

正轨迹: 专家演示，在边界处增加了随机交互步骤
负轨迹: 通过随机策略生成的失败轨迹

数据配置

数据集提供五个配置，每个配置对应一个环境：

默认配置: alfworld
所有配置均包含: train分割
数据文件路径模式: data/[环境名称]/**/*.json

数据模式

每条轨迹由一系列交互步骤组成，每个步骤包含以下字段：

goal description (字符串): 代理需要实现的自然语言目标
action (字符串): 代理在该时间步执行的具体动作
observation (字符串): 环境返回的文本反馈/观察结果
reward (字典): 包含细粒度奖励标签的字典
- raw (浮点数): 原始的、稀疏的环境奖励（成功通常为1.0，否则为0.0）
- shaped (浮点数): 插值后的逐步真实奖励
- is_expert (布尔值): 指示该步骤是否属于专家演示的一部分

数据加载

数据集可通过Hugging Face仓库加载，加载后需要恢复原始环境目录结构（alfworld/、webshop/等文件夹）。

引用信息

相关引用信息待发布。

搜集汇总

数据集介绍

构建方式

在强化学习领域，构建能够精确评估智能体行为的数据集至关重要。RewardPrediction数据集通过精心设计的配对正负轨迹策略进行构建，涵盖了五个不同的文本环境，包括AlfWorld、ScienceWorld等。具体而言，正轨迹源自专家演示，并在边界处融入随机交互步骤以增强多样性；负轨迹则通过随机策略生成，模拟失败场景，从而有效防止启发式奖励作弊，确保评估的严谨性。

特点

该数据集以其细粒度的步进奖励标注而著称，共包含2454条独特轨迹，覆盖多样化的文本环境。每条轨迹的每一步均提供详尽的奖励信息，包括原始稀疏奖励、插值后的步进真实奖励以及是否为专家步骤的标识。这种多层次奖励结构为研究提供了丰富的监督信号，支持对智能体行为进行深入分析，尤其在复杂任务中展现出显著优势。

使用方法

使用RewardPrediction数据集时，研究者可通过HuggingFace平台直接加载，并按照提供的代码示例恢复原始环境结构。数据模式清晰，每个步骤包含目标描述、动作、观察和奖励字典，便于集成到现有强化学习框架中。该数据集适用于训练和评估奖励预测模型，推动细粒度奖励建模领域的发展，为智能体在文本环境中的行为优化提供可靠基准。

背景与挑战

背景概述

RewardPrediction数据集由Yijun Shen等人于近期构建，旨在为强化学习领域提供细粒度、步进式的奖励预测基准。该数据集整合了AlfWorld、ScienceWorld、TextWorld、WebShop和BlocksWorld五个文本交互环境，共包含2454条独特轨迹，每条轨迹均标注了密集的奖励信号。其核心研究问题聚焦于解决稀疏奖励环境下智能体学习效率低下的难题，通过提供精确的步进奖励标注，推动奖励塑造、模仿学习等方向的发展，对提升智能体在复杂任务中的泛化与决策能力具有重要影响。

当前挑战

RewardPrediction数据集致力于应对强化学习中稀疏奖励问题的挑战，即智能体在仅接收终端奖励时难以学习有效策略。构建过程中，研究者需在多样化的文本环境中采集专家演示与随机策略生成的失败轨迹，并采用配对正负策略以防止启发式奖励破解。此外，为每个交互步骤标注精细的奖励值涉及大量人工或自动化处理，需确保奖励信号的准确性与一致性，同时维持不同环境间数据格式的兼容性，这构成了数据集构建的主要技术障碍。

常用场景

经典使用场景

在强化学习与自然语言处理交叉领域，RewardPrediction数据集为细粒度奖励预测模型的评估提供了标准化基准。其经典使用场景集中于训练和验证能够预测文本环境中每一步即时奖励的智能体，通过涵盖AlfWorld、ScienceWorld等五个多样化环境，该数据集支持模型在复杂任务序列中学习密集奖励信号，从而优化决策过程。

衍生相关工作

该数据集衍生了一系列经典研究工作，主要集中在奖励模型构建与策略优化方向。例如，基于其正负轨迹对策略，研究者开发了对抗性奖励学习框架，以增强模型的鲁棒性；同时，许多工作利用其细粒度奖励标签，探索了离线强化学习与模仿学习的结合方法，为样本高效训练提供了新思路，并在多环境泛化测试中设立了性能标杆。

数据集最近研究