RewardPrediction

github2026-03-11 更新2026-03-12 收录

下载链接：

https://github.com/yijunshens/StateFactory

下载链接

链接失效反馈

官方服务：

资源简介：

RewardPrediction基准数据集旨在评估五个多样化文本环境（AlfWorld、ScienceWorld、TextWorld、WebShop和BlocksWorld）中的细粒度、逐步奖励预测。它包含2,454条独特轨迹。为了防止启发式奖励破解，我们使用配对的正负策略构建了基准：正轨迹是专家演示，在边界处增加了随机交互步骤；负轨迹是通过随机策略生成的失败轨迹。

The RewardPrediction benchmark dataset is designed to evaluate fine-grained, step-by-step reward prediction across five distinct text-based environments: AlfWorld, ScienceWorld, TextWorld, WebShop, and BlocksWorld. It contains 2,454 unique trajectories. To prevent heuristic reward hacking, we constructed the benchmark using paired positive and negative policies: positive trajectories are expert demonstrations with random interaction steps added at their boundaries, while negative trajectories are failed trajectories generated via random policies.

创建时间：

2026-03-03

原始信息汇总

数据集概述

数据集基本信息

数据集名称: RewardPrediction
托管平台: Hugging Face
数据集地址: https://huggingface.co/datasets/YijunShen/RewardPrediction
关联项目: StateFactory
项目地址: https://github.com/yijunshens/StateFactory

数据集目的与背景

该数据集旨在评估跨领域的细粒度、逐步奖励预测。研究探讨了定义良好的世界状态表示是否能够实现跨领域的准确奖励预测，并引入了StateFactory因子化表示方法，该方法使用语言模型将非结构化观察结果转换为分层对象-属性结构。

数据集内容与规模

总轨迹数: 2,454条唯一轨迹。
覆盖领域: 涵盖五个不同的基于文本的环境：AlfWorld, ScienceWorld, TextWorld, WebShop, 和 BlocksWorld。
数据策略: 采用配对正负策略构建基准，以防止启发式奖励黑客攻击。
- 正轨迹: 专家演示，并在边界处增加了随机交互步骤。
- 负轨迹: 通过随机策略生成的失败轨迹。

数据模式

数据集中的每一行代表一个完整的任务轨迹。数据采用嵌套结构以高效存储顺序交互：

goal_description (字符串): 代理需要为此特定轨迹实现的自然语言目标。
trajectory (列表): 交互步骤的嵌套序列。每个步骤包含以下字段：
- action (字符串): 代理在此时间步执行的具体动作。
- observation (字符串): 环境返回的文本反馈/观察结果。
- reward (字典): 包含细粒度奖励标签的字典：
  - raw (浮点数): 原始的、稀疏的环境奖励（成功通常为1.0，否则为0.0）。
  - shaped (浮点数): 插值后的、逐步的真实奖励。
  - is_expert (布尔值): 指示此步骤是否属于专家演示的一部分。

评估结果

基于该数据集的评估表明，StateFactory方法在零样本情况下对比VLWM-critic和LLM-as-a-Judge奖励模型显示出有希望的结果，分别实现了低60%和8%的EPIC距离。此外，这种优越的奖励质量成功转化为改进的代理规划性能，在反应式系统-1策略基础上，在AlfWorld上成功率提高了+21.64%，在ScienceWorld上提高了+12.40%，并增强了系统-2代理规划。

数据获取与使用

数据集可通过提供的Python脚本从Hugging Face下载和重组。项目提供了完整的代码框架（StateFactory）用于运行奖励预测和评估。

搜集汇总

数据集介绍

构建方式

在强化学习领域，构建能够准确预测奖励信号的基准数据集对于评估智能体泛化能力至关重要。RewardPrediction数据集通过精心设计的轨迹收集策略构建而成，覆盖了AlfWorld、ScienceWorld等五个文本交互环境。其构建过程采用正负轨迹配对策略，正轨迹融合专家演示与边界随机交互步骤，负轨迹则由随机策略生成的失败轨迹组成，共计包含2454条独特轨迹，旨在防止启发式奖励作弊并确保数据的多样性与可靠性。

使用方法

研究人员可通过Hugging Face平台直接下载该数据集，并利用提供的StateFactory框架进行奖励预测实验。该框架支持本地GPU与云端API两种推理后端，用户可通过配置参数选择语言模型骨干、状态表示格式及目标领域环境。运行核心脚本后，系统将自动执行状态因子化、奖励计算与结果输出流程，并通过EPIC距离指标评估预测奖励与真实进度之间的对齐程度，为智能体规划性能的优化提供实证依据。

背景与挑战

背景概述

RewardPrediction数据集由华东师范大学与香港科技大学的研究团队于2026年联合构建，旨在探究结构化世界状态表征对奖励预测的泛化能力。该数据集聚焦于强化学习与具身智能领域的核心研究问题，即如何使智能体在多样化的文本环境中，仅基于良好定义的状态表示来准确推断动作的奖励信号，从而规避监督学习带来的数据偏差。其涵盖AlfWorld、ScienceWorld等五个异构领域，包含2454条独特的动作-观察轨迹，为评估细粒度、步进式的奖励预测模型提供了标准化基准，对推动基于语义理解的智能体规划与决策研究具有重要影响力。

当前挑战

RewardPrediction数据集致力于解决奖励模型泛化性不足的领域挑战，即在面对新颖目标与环境时，如何避免因训练数据固有偏差而导致的性能下降。构建过程中的主要挑战在于设计能够防止启发式奖励破解的评估框架，为此采用了正负轨迹配对策略，通过融合专家演示与随机交互步骤来生成鲁棒的基准数据。同时，将非结构化的环境观察转化为层次化的对象-属性表征亦是一项关键难题，需要借助语言模型实现精准的语义解析与结构化重构，以确保奖励能够通过当前状态与目标状态之间的语义相似性进行自然估计。

常用场景

经典使用场景

在强化学习与智能体规划领域，RewardPrediction数据集为评估细粒度奖励预测模型提供了标准化基准。该数据集涵盖了AlfWorld、ScienceWorld等五个文本交互环境，包含2454条独特的动作-观察轨迹，每条轨迹均标注了逐步的真实奖励值。研究者通常利用此数据集训练或验证奖励模型，通过对比预测奖励与真实奖励的EPIC距离，量化模型在跨域泛化与零样本学习中的性能。这种结构化评估框架，使得奖励预测任务从理论探索迈向系统化实证分析。

解决学术问题

RewardPrediction数据集致力于解决奖励模型泛化能力不足这一核心学术难题。传统监督学习方法容易受到训练数据偏差的影响，难以适应新颖目标与环境。该数据集通过提供多领域、细粒度的奖励标注，支持研究者探索基于结构化世界状态的奖励预测机制。其引入的分解式表示方法StateFactory，将非结构化观察转化为层次化对象-属性结构，从而自然地将奖励估计转化为当前状态与目标状态的语义相似度计算。这一范式不仅提升了奖励预测的准确性，还为理解智能体如何从原始观察中推断行动结果提供了新的理论视角。

实际应用

在实际应用层面，RewardPrediction数据集为构建更可靠的智能体规划系统提供了关键支撑。基于该数据集训练的奖励模型，能够显著提升智能体在复杂文本环境中的任务完成率，例如在AlfWorld和ScienceWorld中分别实现了21.64%和12.40%的成功率增益。这些改进直接赋能于客服对话系统、自动化流程执行与教育辅助工具等场景，其中智能体需要根据动态环境反馈调整策略。通过提供精确的逐步奖励信号，数据集帮助智能体区分有效与无效行动，从而在网页导航、科学实验模拟等实际任务中做出更优决策。

数据集最近研究