five

Gideon 数据集

收藏
arXiv2025-05-13 更新2025-05-15 收录
下载链接:
https://github.com/NichAttGH/Gideon
下载链接
链接失效反馈
官方服务:
资源简介:
Gideon 数据集是一个由 Gideon 框架生成的数据集,旨在解决机器人自主性中的动态人机协作问题。该数据集包含大规模、多域的域-问题-计划三元组,与 PDDL 2.1 规范兼容。Gideon 框架采用模块化流程,集成自动化问题生成器,可系统地生成任意域的大规模数据集。数据集适用于本地 LLMs,支持跨域规划和更长的计划。

The Gideon Dataset is a dataset generated by the Gideon framework, which is designed to address dynamic human-robot collaboration challenges in robotic autonomy. This dataset contains large-scale, multi-domain domain-problem-plan triples that comply with the PDDL 2.1 specification. The Gideon framework adopts a modular workflow that integrates an automated problem generator, enabling systematic generation of large-scale datasets for arbitrary domains. This dataset is tailored for local LLMs, supporting cross-domain planning and longer planning sequences.
提供机构:
意大利热那亚大学信息学、生物工程、机器人与系统工程系, Teseo Srl
创建时间:
2025-05-13
原始信息汇总

Gideon数据集概述

数据集简介

Gideon是一个基于Python的框架,专注于生成规划域定义语言(PDDL)问题文件和规划解决方案。该工具自动化创建随机化的PDDL问题实例,生成规划方案,并为AI规划研究和开发组织数据集。

核心功能

PDDL问题生成

  • 支持通过JSON配置文件自定义问题结构
  • 基于用户定义概率生成随机初始状态和目标状态
  • 使用SHA-256哈希确保问题实例唯一性
  • 提供进度跟踪功能,可恢复中断的生成会话
  • 自动生成包含统计信息的日志文件
  • 结构化目录管理生成的问题、日志和进度文件

规划功能

  • 集成Probe等规划器生成解决方案
  • 使用VAL验证工具验证生成的规划方案
  • 跟踪规划进度并可恢复中断会话
  • 生成包含执行时间和失败率等统计信息的日志

数据集处理

  • 将PDDL域、问题和规划方案处理为结构化数据集
  • 支持将数据集分割为训练集、验证集和测试集
  • 可选为规划文件添加停止序列
  • 生成数据集创建和分割的汇总日志

安装要求

  • 必需库:numpy, tqdm, pickle, shutil, pddl, re, tabulate
  • 需确保Probe和Validate工具具有可执行权限

快速使用指南

生成PDDL问题

  1. 准备域文件(如domain.pddl)和JSON配置文件

  2. 运行生成命令: bash python gpg.py -d domain.pddl -o output_dir -n 10 -j config.json

  3. 生成的问题保存在output_dir/domain_name_folder/problems目录

生成规划方案

  1. 使用生成的问题创建规划: bash python bp.py -o output_dir -c probe

  2. 生成的规划保存在domain_name_folder/plans目录

创建数据集

  1. 处理问题和规划为数据集: bash python gd.py -s output_dir -v 20 -t 10

  2. 数据集保存在domain_name_folder/dataset目录

文档资源

  • JSON配置模板:https://github.com/NichAttGH/Gideon/blob/main/Gideon/jsons/pddl_problem_generator_schema.json
  • 示例JSON配置:https://github.com/NichAttGH/Gideon/blob/main/Gideon/jsons/joint_bar_example.json

许可信息

  • 项目采用GNU许可证:https://github.com/NichAttGH/Master-Thesis/blob/main/LICENSE

支持与致谢

  • 问题支持邮箱:nicholasattolino@gmail.com
  • 使用了pddl Python库的核心功能:https://github.com/AI-Planning/pddl/tree/main
搜集汇总
数据集介绍
main_image_url
构建方式
Gideon数据集通过模块化流程构建,包括问题生成器、计划生成器和数据集生成器三个核心模块。问题生成器基于PDDL领域规范,通过领域-问题生成配置文件(DPGC)随机生成符合领域规则的问题实例。计划生成器使用传统规划器(如Probe)为每个问题生成有效计划,并通过VAL工具验证计划有效性。数据集生成器最终将领域、问题和计划组合成Alpaca JSON格式的训练样本,确保数据唯一性并合理划分训练、验证和测试集。
特点
Gideon数据集具有多领域扩展性和高度结构化特点。其创新性的DPGC配置格式允许精细控制问题生成过程,确保生成的问题既具有随机性又符合领域逻辑约束。数据集支持PDDL 2.1规范,涵盖条件效果等复杂规划要素。特别值得注意的是,该数据集通过系统化的生成流程,能够创建大规模、多样化的训练样本,有效解决了神经符号规划中多领域数据稀缺的瓶颈问题。
使用方法
Gideon数据集主要用于训练轻量级本地LLM进行神经符号规划任务。使用时,研究人员可选择特定领域配置或创建多领域组合,通过DPGC文件定制问题生成规则。生成的Alpaca格式数据可直接用于模型微调,其中领域描述作为指令,问题作为输入,规划序列作为输出目标。评估时需使用独立测试集验证规划有效性,重点关注生成计划的形式正确性和目标达成率。该数据集特别适合研究模型规模、数据量与规划性能之间的缩放关系。
背景与挑战
背景概述
Gideon数据集由意大利热那亚大学和Teseo Srl的研究团队于2025年提出,旨在解决人机协作(HRC)中基于PDDL的符号任务规划在动态环境下面临的扩展性和实时性问题。该数据集通过整合轻量级本地大型语言模型(LLMs)和创新的问题生成器,支持多领域任务规划,显著提升了机器人自主性。Gideon的提出标志着神经符号规划领域的重要进展,特别是在工业自动化和服务机器人等需要高效、可扩展规划的领域。
当前挑战
Gideon数据集面临的挑战主要包括两方面:领域问题的挑战和构建过程的挑战。在领域问题方面,Gideon旨在解决动态人机协作中符号任务规划的扩展性和实时性问题,但轻量级模型在生成长时间连贯计划方面仍存在效率不足的问题。在构建过程中,生成大规模、多领域且符合PDDL 2.1规范的域-问题-计划元组是一项复杂任务,需确保问题可解且符合领域特定规则。此外,模型训练效率较低,且计划生成时间较长,这些问题需要通过数据多样性和优化技术进一步解决。
常用场景
经典使用场景
Gideon数据集在机器人自主规划和人机协作领域具有广泛的应用场景。其经典使用场景主要集中在动态环境下的任务规划,特别是在需要频繁重新规划和快速响应的工业自动化、辅助机器人等领域。通过结合神经符号规划方法,Gideon能够有效处理复杂的多领域任务规划问题,例如在工业装配线上机器人对复杂关节物体的操作。数据集生成的领域-问题-规划元组为研究提供了丰富的训练和测试样本,使得模型能够在模拟环境中学习并优化规划策略。
实际应用
在实际应用层面,Gideon数据集支持了工业4.0环境下的人机协作系统开发。其本地化部署特性消除了对云端大型模型的依赖,确保了工业场景中必需的服务可用性和响应时间一致性。数据集生成的规划方案可直接应用于装配线机器人操作、物流分拣系统等实际场景,其中对关节物体的操作规划尤其具有实用价值。通过增量式规划生成策略,机器人能够在获得完整规划前就开始执行动作,大幅提升了人机协作的流畅度。这种能力在需要快速响应环境变化的服务机器人领域同样具有重要应用前景。
衍生相关工作
Gideon数据集衍生了一系列重要的相关研究工作。其神经符号规划框架延续并改进了Teriyaki等先驱工作的技术路线,将基于GPT-3的云端模型迁移到轻量级本地Qwen-2.5模型。数据集的问题生成器模块为Plansformer等后续研究提供了数据支持,促进了多领域规划模型的发展。在方法论层面,Gideon采用的域问题生成配置(DPGC)格式为自动化规划问题生成设立了新标准。相关工作还探索了将Gideon框架应用于更广泛的逻辑推理任务,如国际规划竞赛(IPC)中的复杂领域规划问题,推动了神经符号规划领域的整体进步。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作