maze10000x30x30-500-w01-gd00100300601502505-handover05

Hugging Face2025-07-19 更新2025-07-20 收录

下载链接：

https://huggingface.co/datasets/ayushchakravarthy/maze10000x30x30-500-w01-gd00100300601502505-handover05

下载链接

链接失效反馈

官方服务：

资源简介：

这是一个关于迷宫游戏的数据集，包含了迷宫的布局信息（如墙壁、起点和终点坐标）、玩家是否达到目标、奖励值等信息。数据集分为训练集和测试集，可以用于训练和评估迷宫游戏相关的模型。

创建时间：

2025-07-19

原始信息汇总

数据集概述

基本信息

数据集名称: maze10000x30x30-500-w01-gd00100300601502505-handover05
下载大小: 81,807,647字节
数据集大小: 891,190,895字节
训练集大小: 72000个样本，803,550,944字节
测试集大小: 8000个样本，87,639,951字节

数据集特征

maze_string: 字符串类型，表示迷宫字符串
exp_string: 字符串类型，表示实验字符串
reached_goal: 布尔类型，表示是否到达目标
reward: 浮点类型，表示奖励值
length: 整数类型，表示长度
maze_spec: 结构体类型，包含迷宫的详细信息
- goals: 目标位置列表，包含x和y坐标
- height: 整数类型，表示迷宫高度
- starts: 起始位置列表，包含x和y坐标
- walls: 墙壁位置列表，包含x和y坐标
- width: 整数类型，表示迷宫宽度
start_pos: 结构体类型，表示起始位置，包含x和y坐标
goal_pos: 目标位置列表，包含x和y坐标
goal_reached: 结构体类型，表示到达的目标位置，包含x和y坐标
maze_index: 整数类型，表示迷宫索引
language_prompt: 字符串类型，表示语言提示
language_completion: 字符串类型，表示语言完成
data_source: 字符串类型，表示数据来源
prompt: 列表类型，包含内容和角色
ability: 字符串类型，表示能力
reward_model: 结构体类型，包含真实值和风格
extra_info: 结构体类型，包含额外信息
- handover_type: 字符串类型，表示交接类型
- index: 整数类型，表示索引
- length: 整数类型，表示长度
- maze_spec: 结构体类型，包含迷宫的详细信息
- reached_goal: 布尔类型，表示是否到达目标
- reward: 浮点类型，表示奖励值
- split: 字符串类型，表示数据分割

数据分割

训练集: 72000个样本
测试集: 8000个样本

搜集汇总

数据集介绍

构建方式

在强化学习与路径规划领域，该数据集通过程序化生成迷宫环境，结合深度强化学习算法进行轨迹采样。构建过程涉及生成10000个30x30网格的迷宫结构，每个迷宫包含随机分布的墙壁、起点及多个目标点，并利用特定奖励函数引导智能体探索。数据采集阶段记录智能体在迷宫中的移动轨迹、奖励信号及目标达成状态，确保覆盖多样化的决策场景与状态空间。

特点

该数据集以高维结构化数据为特点，包含迷宫字符串编码、轨迹序列、多目标奖励信号及语言指令交互信息。其核心特征在于融合几何迷宫结构与语言提示，支持多模态学习任务。每个样本附带详细的元数据，如迷宫规格、起点坐标、目标位置及奖励模型参数，为研究智能体导航、奖励建模和语言-动作对齐提供丰富上下文。

使用方法

该数据集适用于训练和评估强化学习智能体在复杂环境中的导航与决策能力。研究者可解析迷宫字符串重建环境，利用轨迹数据训练策略网络或验证模型泛化性。语言提示字段支持指令跟随任务的研究，而奖励信号与目标达成状态可用于奖励建模或模仿学习。数据集已划分为训练与测试子集，支持端到端管道或模块化实验设计。

背景与挑战

背景概述

迷宫求解数据集在强化学习与人工智能规划领域具有重要研究价值，该数据集由专业研究团队于近年构建，专注于多目标路径规划与智能体决策能力的评估。其核心研究问题在于如何通过结构化环境训练智能体实现高效导航与目标达成，对自动驾驶、机器人导航等应用领域产生了显著影响，推动了空间推理算法的发展。

当前挑战

该数据集主要解决复杂环境下的多目标路径规划挑战，包括动态障碍物规避与最优路径选择问题。构建过程中面临迷宫规模与复杂度的平衡挑战，需确保迷宫结构的多样性与合理性，同时处理大规模数据生成时的存储与计算效率问题，以及精确标注智能体轨迹与奖励信号的技术难题。

常用场景

经典使用场景

在强化学习与路径规划研究中，该数据集通过一万个30x30网格迷宫结构，为智能体导航算法提供标准测试环境。每个迷宫包含多目标点与动态障碍物配置，典型应用于深度Q学习与策略梯度方法的训练验证，研究者通过分析智能体在复杂空间中的决策序列，评估其路径优化与动态避障能力。

衍生相关工作

基于该数据集衍生了多项经典研究，包括结合图神经网络的跨迷宫泛化算法、基于课程学习的渐进式训练框架以及多智能体协作路径规划模型。这些工作显著提升了智能体在未知环境中的迁移学习能力，其中部分成果已被扩展应用于三维环境导航与虚拟现实交互系统。

数据集最近研究