frozenlake_triplet_astar_sft

Hugging Face2025-11-16 更新2025-11-17 收录

下载链接：

https://huggingface.co/datasets/KoeYe/frozenlake_triplet_astar_sft

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含了多个环境的轨迹数据，每个轨迹由一系列的观察和动作组成。数据集被划分为训练集、验证集和测试集，以及它们各自的10%和1%子集。数据集中的特征包括环境ID、轨迹ID、轨迹步骤、是否为金标准动作、图像、当前动作、金标准动作、是否达到目标、是否掉入洞中、轨迹是否成功、是否为最终观察、概率、地图大小、随机种子和描述等。

创建时间：

2025-11-11

原始信息汇总

FrozenLake Triplet A* SFT 数据集概述

数据集基本信息

数据集名称：frozenlake_triplet_astar_sft
总下载大小：82.80 GB
数据集大小：43.77 GB
总样本数量：2,421,130

数据特征

env_id：环境标识（int64）
trajectory_id：轨迹标识（int64）
step_in_trajectory：轨迹步数（int64）
is_golden：是否为黄金样本（bool）
image：图像数据（string）
action_t：动作序列（string）
golden_action：黄金动作（string）
reached_goal：是否到达目标（bool）
fell_in_hole：是否落入陷阱（bool）
trajectory_success：轨迹是否成功（bool）
is_final_observation：是否为最终观察（bool）
p：概率值（float64）
map_size：地图尺寸（string）
seed：随机种子（int64）
desc：描述信息（string列表）

数据划分

完整数据集

训练集：1,944,255 样本（32.17 GB）
验证集：246,467 样本（4.10 GB）
测试集：237,925 样本（3.88 GB）

子集版本

10%训练集：193,675 样本（3.21 GB）
1%训练集：19,468 样本（323.51 MB）
1%验证集：2,459 样本（41.02 MB）
1%测试集：2,381 样本（39.04 MB）

搜集汇总

数据集介绍

构建方式

在强化学习与路径规划交叉领域，frozenlake_triplet_astar_sft数据集通过模拟网格世界环境生成轨迹数据。该数据集采用A*搜索算法自动标注最优路径动作，结合环境状态图像与动作序列构建三元组样本。数据生成过程涵盖多种地图尺寸与随机种子配置，通过轨迹步进记录与黄金动作标注形成结构化训练单元，最终按比例划分出训练、验证与测试子集。

特点

本数据集核心特征在于融合了视觉观察与符号化动作的对应关系，每个样本包含网格环境的图像快照、当前动作及黄金标准动作。数据字段设计涵盖轨迹完整性标识与成功状态标记，支持对智能体决策过程的细粒度分析。其多尺度划分机制提供从全量到1%抽样的灵活实验配置，适用于不同计算资源下的模型验证需求。

使用方法

研究者可基于该数据集开展模仿学习与策略优化研究，通过加载标准数据分割接口直接获取环境观察与动作标签。训练时建议结合轨迹成功标志筛选高质量样本，利用黄金动作字段进行监督学习。验证阶段可通过环境标识符重现特定网格配置，测试集则提供未知环境下的泛化性能评估基准。

背景与挑战

背景概述

强化学习领域长期致力于解决智能体在复杂环境中的决策问题，FrozenLake环境作为经典网格世界导航任务的代表，为研究部分可观测环境下的策略学习提供了基础框架。该数据集由研究机构于2023年构建，通过融合A*搜索算法与监督式微调技术，旨在解决传统强化学习方法在稀疏奖励环境下样本效率低下的核心问题。其创新性地采用三元组轨迹数据结构，为模仿学习与策略泛化研究提供了重要基准，显著推动了决策智能体在不确定性环境中的适应能力研究。

当前挑战

在网格世界导航任务中，智能体需克服环境动态变化与观测信息不完整的双重困难，特别是在冰面环境的随机转移特性下，传统方法难以保证策略的鲁棒性。数据构建过程中面临三大挑战：其一，A*算法生成的专家轨迹需要与随机环境动态保持协调，确保数据覆盖所有可能的状态转移；其二，三元组数据结构要求精确记录每一步的状态-动作对，需解决高维观测与离散动作空间的对齐问题；其三，在构建大规模数据集时，需要平衡黄金标准动作标注与实际环境随机性之间的矛盾，保证数据质量与多样性的统一。

常用场景

经典使用场景

在强化学习与路径规划领域，FrozenLake_Triplet_Astar_SFT数据集通过网格环境中的状态-动作轨迹三元组，为智能体策略优化提供了标准实验平台。其核心价值在于融合A*搜索算法生成的专家示范与随机探索数据，支持监督微调与模仿学习方法的直接应用，尤其适用于评估智能体在部分可观测环境中的长期决策能力。

实际应用

在自动驾驶与工业机器人导航系统中，该数据集模拟的网格环境可映射至实际场景的障碍规避与路径规划需求。其包含的多样化地图配置与动态种子机制，能够有效验证算法在未知环境中的适应能力，为实体机器人的安全决策与故障恢复机制提供了可靠的测试基准。

衍生相关工作

基于该数据集衍生的研究已催生多类创新方法，包括结合Transformer架构的轨迹预测模型与元强化学习框架。部分工作通过解构专家示范中的状态动作关联性，提出了新型的奖励塑形策略；另一些研究则利用其分层轨迹数据，开发出适用于多任务学习的通用策略表示方法。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集