RoboTwin_instruct-pix2pix

Hugging Face2025-05-04 更新2025-05-05 收录

下载链接：

https://huggingface.co/datasets/YimouWu/RoboTwin_instruct-pix2pix

下载链接

链接失效反馈

官方服务：

资源简介：

这是一个通过单臂机器人模拟器在三个任务（block_hammer_beat, block_handover, blocks_stack_easy）上采集的图片数据集，每个任务在训练、验证和测试集中都有对应的图片样本。数据集包含输入图片、任务指令和输出图片，用于训练机器人在执行任务时预测50帧后的情况。数据集经过筛选和处理，指令构造采用了基于FLAN论文的方法，并合并了三个任务的数据集以形成完整的训练集、验证集和测试集。

创建时间：

2025-05-03

原始信息汇总

RoboTwin_instruct-pix2pix 数据集概述

基本信息

许可证: MIT
数据集大小: 4,743,250 字节
下载大小: 4,289,480 字节
数据格式: JSONL (每行包含 input, instruction, output 字段)

数据特征

input: 图像类型
instruction: 字符串类型
output: 图像类型

数据划分

划分	样本数量	数据大小（字节）
train	300	3,961,688
val	30	400,814
test	30	380,748

任务分布

任务名称	train	val	test
block_hammer_beat	100	10	10
block_handover	100	10	10
blocks_stack_easy	100	10	10

数据来源

通过 RoboTwin 单臂机器人模拟器采集
任务场景: block_hammer_beat, block_handover, blocks_stack_easy
采样间隔: 50帧
原始数据量: 约150张/任务

数据构造方法

图像采集:
- 关键参数: save_feq=50, episode_num=2
数据筛选:
- 从原始数据中抽取120条/任务
- 按10:1:1比例划分为train/val/test
- 每500帧为一个时间段，随机抽取约8个图片对
指令生成:
- 基于FLAN论文的模板方法
- 使用GPT-4o生成10个同义指令
- 平均随机分配给数据对

文件结构

主数据文件:
- train.jsonl
- val.jsonl
- test.jsonl
辅助文件:
- pkl2img_converter.py (包含extract_rgb函数)
- task_JPEG文件夹 (存放JPEG格式图片)

数据示例

input (img)	instruction (str)	output (img)
当前帧图像	"预测机器人在block_hammer_beat任务中50帧后的观察"	目标帧图像

参考文献

RoboTwin: Dual-Arm Robot Benchmark with Generative Digital Twins
Fine-tuned Language Models Are Zero-Shot Learners (FLAN)

搜集汇总

数据集介绍

构建方式

RoboTwin_instruct-pix2pix数据集构建于单臂机器人模拟器RoboTwin之上，专注于block_hammer_beat、block_handover和blocks_stack_easy三个任务场景。通过间隔50帧的采样策略，原始数据被系统性地收集，每个任务约150张图像。为确保数据的多样性和代表性，采用分段筛选方法，将每500帧划分为一个时间段，从中随机抽取样本，最终按照10:1:1的比例划分为训练集、验证集和测试集。指令构造借鉴了FLAN论文中的模板方法，利用GPT-4o生成多样化的任务描述，确保每个数据对均获得独特的语义表达。

特点

该数据集以图像对为核心，每对数据包含当前帧图像、50帧后的目标图像及相应的自然语言指令。其独特之处在于将机器人操作任务与视觉预测相结合，为研究机器人视觉推理和指令跟随提供了丰富资源。数据覆盖三种典型操作场景，每个场景包含100个训练样本和20个评估样本，规模适中但质量精良。图像数据以JPEG和PKL格式双重存储，兼顾可视化便捷性和程序处理效率。指令文本经过同义句扩展，增强了模型的语义理解鲁棒性。

使用方法

使用该数据集时，可通过提供的JSONL文件直接访问图像路径和对应指令。训练集、验证集和测试集分别存储于独立文件，每个条目包含输入图像相对路径、任务描述文本和输出图像路径。需注意调整路径以适应本地环境。PKL文件中的RGB数据需借助配套的extract_rgb函数转换，而task_JPEG文件夹提供即用型JPEG图像。研究者可利用该数据集训练视觉预测模型，评估其在多任务场景下的帧间预测能力，或探索自然语言指令与机器人视觉感知的交互机制。

背景与挑战

背景概述

RoboTwin_instruct-pix2pix数据集由研究人员Shenghao Yang和Yimou Wu共同构建，旨在通过单臂机器人模拟器在特定任务上生成图像预测数据。该数据集基于RoboTwin模拟器，在block_hammer_beat、block_handover和blocks_stack_easy三个任务上间隔50帧采样，生成输入图像与预测图像对，并配以任务描述指令。其设计灵感来源于FLAN论文中的指令模板构造方法，结合了生成式数字孪生技术，为机器人视觉预测任务提供了重要的数据支持。数据集采用科学的分段筛选方法，确保了数据的多样性和代表性，为机器人学习与预测模型的训练与评估提供了可靠的基础。

当前挑战

RoboTwin_instruct-pix2pix数据集在解决机器人视觉预测问题时面临多重挑战。首先，数据采集过程中需确保时间间隔的精确性，以捕捉任务执行中的关键帧变化，这对模拟器的采样频率和稳定性提出了较高要求。其次，指令构造的多样性与任务描述的准确性直接影响模型的泛化能力，需通过多轮优化确保语义一致性。此外，数据筛选与分割需兼顾时间连续性与随机性，以避免过拟合或欠拟合问题。最后，跨任务数据的合并与标准化处理也是构建过程中的技术难点，需协调不同任务间的数据分布差异。

常用场景

经典使用场景

在机器人视觉预测领域，RoboTwin_instruct-pix2pix数据集通过模拟单臂机器人在特定任务中的动态场景，为研究者提供了丰富的图像序列数据。该数据集最经典的使用场景是训练和评估基于深度学习的视觉预测模型，特别是在预测机器人未来帧观察结果的场景中。通过输入当前帧图像和任务指令，模型需要预测50帧后的场景图像，这对于理解机器人任务执行过程中的视觉变化具有重要意义。

实际应用

在实际应用中，RoboTwin_instruct-pix2pix数据集可用于开发智能机器人系统，特别是在需要预测未来场景的工业自动化和服务机器人领域。例如，在自动化装配线上，机器人可以通过预测未来帧图像来优化动作规划，提高任务执行的准确性和效率。此外，该数据集还可用于虚拟现实和增强现实中的场景生成。

衍生相关工作

RoboTwin_instruct-pix2pix数据集衍生了一系列经典工作，特别是在基于指令的图像生成和机器人视觉预测领域。例如，研究者们利用该数据集开发了多种生成对抗网络（GAN）和变分自编码器（VAE）模型，用于未来帧预测。此外，该数据集还启发了更多关于多模态任务指令和视觉预测结合的研究，进一步扩展了其应用范围。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集