frontier-robotics-pack

Hugging Face2026-04-21 更新2026-04-22 收录

下载链接：

https://huggingface.co/datasets/solsticestudioai/frontier-robotics-pack

下载链接

链接失效反馈

官方服务：

资源简介：

Solstice Frontier Robotics Pack 是一个合成的机器人操作轨迹数据集，包含推理痕迹和反事实替代方案。数据集包含1,000个操作片段，涵盖拾取放置、抽屉操作、孔洞插入和可变形物体操作等任务，涉及3种机器人形态。数据集由Solstice AI Studio构建，作为更大商业数据集的免费样本，完全合成，不含真实机器人日志或专有遥操作数据。数据集特点包括提供轨迹及其生成推理过程、多种机器人平台和任务家族、结构化语言目标和子目标，以及数据格式为JSONL和Parquet，约1,000个片段，20,000个时间步。数据集适用于模仿学习、世界模型训练、语言条件操作策略训练、规划器基准测试、故障模式分析和多任务基础模型预训练等场景。数据集采用CC BY 4.0许可，可用于研究、内部工具、基准测试和商业衍生品。

Solstice Frontier Robotics Pack is a synthetic robotic manipulation trajectory dataset containing reasoning traces and counterfactual alternatives. The dataset includes 1,000 manipulation episodes covering tasks such as pick-and-place, drawer manipulation, hole insertion, and deformable object manipulation, involving 3 robot morphologies. Constructed by Solstice AI Studio as a free sample of a larger commercial dataset, it is fully synthetic and contains no real robot logs or proprietary teleoperation data. Key features include providing trajectories and their generative reasoning processes, multiple robot platforms (Franka Panda, UR5e mobile manipulator, Aloha bimanual robot) and task families, structured language goals and subgoals, and data formats in JSONL and Parquet with approximately 1,000 episodes and 20,000 timesteps. The dataset is suitable for imitation learning, world model training, language-conditioned manipulation policy training, planner benchmarking, failure mode analysis, and multi-task foundation model pretraining. It is licensed under CC BY 4.0 for research, internal tools, benchmarking, and commercial derivatives.

创建时间：

2026-04-20

原始信息汇总

Solstice Frontier Robotics Pack (Sample) 数据集概述

数据集基本信息

数据集名称：Solstice Frontier Robotics Pack (Sample)
发布者：Solstice AI Studio
发布日期：2026年
发布平台：Hugging Face
许可证：CC BY 4.0
数据语言：英语 (en)
数据规模：1K<n<10K (约1,000个情节，总计约20,000个时间步)
数据格式：JSONL (每行一个情节) 和 Parquet (用于快速加载)
数据性质：100% 合成数据，无真实机器人日志或专有遥操作数据。

数据集核心特点

核心内容：包含机器人操作轨迹以及产生这些轨迹的推理过程。
独特价值：每个情节都附带蒙特卡洛树搜索 (MCTS) 衍生的推理轨迹、前k个反事实计划以及推理表型标签。
设计目标：适用于训练规划器、评估世界模型或研究智能体为何选择某个计划。

数据内容结构

数据集包含以下主要部分：

episode：情节标识与结果，包含 episode_id, task_family, task_name, difficulty, split (train/val/test), success。
robot：机器人规格，包含 platform, embodiment, control_mode, gripper, sensors, dof。
environment：场景配置，包含场景、目标物体、目标区域、嵌套的 domain_randomization、工作空间元数据。
instruction：结构化语言目标，包含 language 和 subgoals 字段。
trajectory：有序时间步序列，包含关节位置/速度、末端执行器位姿、夹爪状态、力代理、可见性、RGB/深度/分割帧路径、动作、奖励、技能标签。
counterfactuals：前3个MCTS计划替代方案，包含分支ID、计划签名、总奖励、置信度、预测成功率。
agent_reasoning：规划器可解释性信息，包含表型、基因、选定计划、最佳路径、异常标志、基因签名。
metrics：定量评估指标，包含 success, progress_final, pose_error_final_m, path_efficiency, grasp_stability_final, recovery_count, collision_free, failure_reason。

机器人平台

数据集涵盖三种机器人平台：

franka_panda：单臂固定基座，7自由度，末端执行器增量位姿控制，传感器包括RGB、深度、关节状态、末端执行器位姿、夹爪。
ur5e_mobile：移动操作臂，6自由度，基座与末端执行器增量控制，传感器包括RGB、深度、关节状态、末端执行器位姿、基座位姿、激光雷达。
aloha_bimanual：双手臂，14自由度，双末端执行器增量位姿控制，传感器包括RGB、腕部RGB、关节状态、末端执行器位姿、触觉代理。

任务家族

数据集包含四个任务家族：

pick_place：桌面上的块到箱排序。
drawer_manipulation：打开抽屉、取物、放置到目标区域。
insertion：力控对齐的钉入孔。
deformable_manipulation：毛巾/布料折叠。

难度分布

每个任务按三个难度等级采样，具有真实的分布：

Easy：约35%，起始位姿误差0.018米，实测成功率55.9%。
Medium：约45%，起始位姿误差0.032米，实测成功率39.7%。
Hard：约20%，起始位姿误差0.052米，实测成功率22.3%。
总体成功率：41.6%。

推理表型

每个情节在四种MCTS推理表型之一下生成，这是一种影响计划选择的推理“风格”：

PRECISION_FIRST：几何+力控+视觉。偏好更慢、更审慎的接触丰富轨迹。
CONTACT_AWARE：针对插入和可变形交互的接触丰富操作偏好。
RECOVERY_BIASED：恢复+安全+序列化。保留显式的重试/重抓取/重定位分支。
THROUGHPUT_GUARD：延迟+效率+规划。在周期时间与灾难性故障容限之间权衡。

主要应用场景

模仿学习与行为克隆
世界模型训练与离线评估
语言条件操作策略训练 (VLA风格)
规划器 / MCTS 基准测试
故障模式分析与恢复策略训练
具身迁移实验
多任务基础模型预训练

数据质量保证

每个情节都包含完整的 trajectory、counterfactuals (前3个)、agent_reasoning 和 metrics 模块。
metrics.success 与最后一个轨迹步上的终端 labels.object_state_change 和 termination_reason 一致。
实测成功率按难度分层 (简单/中等/困难：55.9% / 39.7% / 22.3%)。
失败原因分布在 timeout / misalignment / collision_guard。
帧路径是确定性引用 (frames/{episode_id}/{t:04d}_rgb.png)，图像不包含在内，需接入用户自己的渲染器或按需合成。

完整数据包说明

当前数据集是一个包含1,000个情节的样本，涵盖4个任务家族和3个机器人平台。生产级数据包可扩展至：

10K–250K 情节包
自定义任务家族 (双手交接、工具使用、关节装配、移动基座导航、长视野任务)
按需定制机器人具身
自定义推理表型混合
任何种子以实现可复现性
与轨迹模式同步生成的配对帧数据 (RGB / 深度 / 分割)

引用格式

bibtex @dataset{solstice_frontier_robotics_2026, title = {Solstice Frontier Robotics Pack (Sample)}, author = {Solstice AI Studio}, year = {2026}, publisher = {Hugging Face}, url = {https://huggingface.co/datasets/solsticestudioai/frontier-robotics-pack} }

搜集汇总

数据集介绍

构建方式

在机器人操作领域，合成数据集正逐渐成为弥补真实数据稀缺性的关键资源。Solstice Frontier Robotics Pack 数据集完全采用合成方法构建，通过蒙特卡洛树搜索算法生成涵盖拾取放置、抽屉操作、孔轴装配及可变形物体操作四大任务族的轨迹数据。该数据集包含一千个独立情节，覆盖三种机器人构型，每个情节均基于随机种子确定性地生成，确保了数据的可复现性。数据生成过程深度融合了推理痕迹与反事实替代方案，为研究智能体决策机制提供了结构化基础。

使用方法

该数据集以JSONL和Parquet两种格式提供，便于高效加载与流式处理。研究人员可利用Pandas库直接读取Parquet文件进行批量分析，例如按难度层级统计成功率。对于单情节的深入分析，可通过解析JSONL文件逐行获取轨迹、指令、度量指标及反事实信息。数据集适用于模仿学习、世界模型训练、语言条件策略训练、规划器基准测试及故障模式分析等多种场景。其结构化设计使得用户能够轻松提取关节状态、末端执行器位姿、传感器数据及技能标签，以构建或评估各类机器人学习算法。

背景与挑战

背景概述

在具身人工智能与机器人操作领域，高质量、可扩展的轨迹数据对于推动模仿学习、强化学习以及世界模型的发展至关重要。由Solstice AI Studio于2026年构建并发布的Frontier Robotics Pack数据集，正是针对这一核心需求而设计的合成数据集。该数据集聚焦于机器人操作任务，涵盖了拾取放置、抽屉操作、轴孔插入以及可变形物体操作等多种任务家族，并涉及三种不同的机器人本体结构。其核心研究问题在于如何提供不仅包含动作轨迹，还蕴含决策推理过程的数据，以支持更高级的规划器训练、策略评估和因果分析，从而为机器人学习算法的可解释性与泛化能力研究提供了新的基准。

当前挑战

该数据集旨在解决的领域挑战，在于如何超越传统的动作轨迹记录，为机器人操作策略提供可解释的决策依据和反事实分析能力。这要求数据不仅能反映‘如何执行’，还需揭示‘为何如此执行’以及‘其他可能方案’，这对构建具备高级推理能力的智能体提出了更高要求。在构建过程中，主要挑战包括：生成具有真实物理交互和失败分布的合成数据，确保其在多任务、多本体场景下的逼真性；设计并集成蒙特卡洛树搜索（MCTS）推理轨迹与反事实备选方案，以结构化方式捕捉复杂的决策过程；以及构建统一的数据模式，以无缝支持从单臂到移动、双手等多种机器人平台上的策略迁移与评估。

常用场景

经典使用场景

在机器人操作与具身智能领域，该数据集为模仿学习与行为克隆提供了丰富的合成轨迹资源。其独特之处在于不仅包含机械臂执行拾放、抽屉操作、轴孔插入及可变形物体操纵等任务的轨迹数据，还融合了蒙特卡洛树搜索衍生的推理轨迹与反事实替代方案。这使得研究者能够深入分析智能体在不同任务中的决策过程，为训练语言条件化策略、评估世界模型以及研究多任务基础模型预训练提供了标准化、可复现的实验平台。

解决学术问题

该数据集有效应对了机器人学中轨迹生成与规划解释性不足的学术挑战。传统数据集常局限于动作序列记录，而本数据集通过提供推理表型标签与反事实计划，使研究者能够剖析智能体在不同操作场景下的决策偏差，例如精度优先、接触感知等推理风格。这为研究计划选择机制、失败模式分析以及跨形态策略迁移提供了实证基础，推动了具身智能中可解释规划与稳健操作算法的发展。

实际应用

在实际工业与服务业机器人部署中，该数据集支持从仿真到实机的平滑过渡。其涵盖的弗兰卡、UR5e移动平台及Aloha双手臂等多种机器人构型，使得策略能够在不同形态间进行迁移测试，降低了实体机器人数据采集的成本与风险。数据集内含的结构化语言指令与多模态传感器路径，可直接用于视觉语言动作策略训练，助力开发能够适应复杂动态环境的自主操作系统，提升工业装配、物流分拣及家庭服务等场景的自动化水平。

数据集最近研究