seed2scale-example-data
收藏Hugging Face2026-04-27 更新2026-04-28 收录
下载链接:
https://huggingface.co/datasets/zte-terminators/seed2scale-example-data
下载链接
链接失效反馈官方服务:
资源简介:
该数据集由Seed2Scale生成,包含在24小时内由单个工作站生成的所有轨迹数据,旨在评估Seed2Scale的性能和准确性。数据集还提供了一个可视化物理回放工具,便于查看自动生成轨迹的实际效果。生成数据集的硬件配置包括AMD Ryzen Threadripper PRO 7975WX32C64T CPU、ASUS Pro WS WRX90E-SAGE SE主板、Samsung 64GB DDR5内存、Inno3D RTX 5090D V2显卡等。具体任务细节包括任务名称(Task1_Kitchen_Cleanup)、时间持续时间(24小时)、数据规模(52940条轨迹)、数据持续时间(100小时2分12秒)、数据大小(2133.89 GB)以及全分布精度(98.32%)。
创建时间:
2026-04-13
原始信息汇总
Seed2Scale Multi-GPU 数据生成实验数据集
数据集概述
本数据集来自一个在单台工作站上进行的真实多GPU Seed2Scale数据生成实验,提供了不同GPU配置下生成的部分机器人操作轨迹示例。
实验设置
- 场景: 厨房场景
- 执行器/策略: AgiBotA2 · SmolVLA
- 指令: 将红色薯片拿起并放入黄色篮子中
- 生成窗口: 每种配置运行24小时
硬件配置
| 组件 | 型号 | 数量 |
|---|---|---|
| CPU | AMD Ryzen Threadripper PRO 7975WX 32C/64T, 4.0–5.3 GHz | 1 |
| 主板 | ASUS Pro WS WRX90E-SAGE SE 工作站主板 | 1 |
| 内存 | Samsung 64GB DDR5 RECC 4800 | 4 |
| 显卡 | Inno3D RTX 5090D V2 24G 三风扇显卡 | 4 |
| SSD | ZhiTai TI600 2TB NVMe M.2 SSD PCIe 4.0 | 1 |
| RAID控制器 | ASUS PIKE II 3108-8i 240PD 2G RAID控制器 | 1 |
| CPU散热器 | AMD SP6 360 一体式水冷 | 1 |
| 电源 | Great Wall 2400W 铂金 80PLUS 全模组电源(双PSU耦合) | 2 |
| 机箱 | 双塔工作站机箱 | 1 |
核心指标总结
| 配置 | 成功轨迹 | 失败轨迹 | 成功率 | 数据大小 | 视频时长 |
|---|---|---|---|---|---|
| 1 GPU | 17,480 | 307 | 98.27% | 731.51 GB | 33小时2分钟 |
| 2 GPU | 31,551 | 566 | 98.24% | 1,321.51 GB | 59小时37分钟 |
| 4 GPU | 52,940 | 904 | 98.32% | 2,133.89 GB | 100小时2分钟 |
| 总计/合计 | 101,971 | 1,777 | 98.29% | 4,186.91 GB | 192.7小时 |
定量实验结果
1. 扩展性能
- 2 GPU配置达到理想线性扩展效率的 90.3%
- 4 GPU配置达到理想线性扩展效率的 75.7%
- 显示强劲的扩展收益,多实例协调开销导致适度效率下降
2. 采集准确率与成功率稳定性
- 所有配置下,成功率稳定在 98.17%–98.40% 之间
- 大规模生成不会显著降低任务成功率
3. 数据量对比
- 4 GPU配置相较于1 GPU,成功轨迹数量达到 3.03倍
- 总存储量和视频时长均有显著增长
4. 4 GPU运行每GPU负载均衡
- 四个GPU具有近乎相同的任务分配
- 每GPU成功率紧密聚集,表现出稳定的跨设备平衡行为
空间采样分布
所有GPU配置下,端效应器采样位置的空间覆盖模式高度一致,表明扩展计算资源不会明显扭曲数据分布。
数据集总结
实验结果表明,Seed2Scale能够在单台工作站上高效生成大规模机器人操作数据,同时保持高成功率和稳定的空间覆盖。4 GPU配置提供最大的数据量和最佳吞吐量,同时保持强大的任务准确性和均衡的每GPU执行。
搜集汇总
数据集介绍

构建方式
Seed2Scale示例数据集源于一项在单台工作站上开展的多GPU数据生成实验,旨在验证随着计算资源从1张GPU扩展至4张GPU时,机器人操控轨迹数据的生成效能。实验场景固定为厨房环境,采用AgiBotA2·SmolVLA策略,并设定统一的指令:将红色薯片拾取并放入黄色篮子。每档GPU配置均限定24小时生成窗口,通过并行调度多张Inno3D RTX 5090D显卡,对轨迹数据进行自动化采集与记录,最终汇总得到不同规模下的轨迹成功数量、失败次数及数据总量等关键指标。
使用方法
使用该数据集时,研究者可直接访问仓库中提供的轨迹重放演示动画以及多维度可视化图表,包括缩放效率、采集准确率、数据体量、单GPU负载均衡度和空间采样分布图。用户可通过分析KPI汇总表中不同GPU配置下的轨迹总数、失败次数、成功率、数据量及视频时长等指标,评估并行数据生成的效能边界。此外,仓库提供的evaluation_data.csv文件记录了末端执行器的采样位置,可用于进一步分析成功与失败轨迹的空间分布模式,为机器人数据增强策略与分布式采集系统的优化提供实证基础。
背景与挑战
背景概述
Seed2Scale-example-data数据集诞生于中科院自动化研究所与中兴通讯联合团队在2024年的探索,其核心研究问题聚焦于机器人在厨房场景下执行精细操作时的数据生成效率与可扩展性。该数据集以AgiBotA2机器人为载体,通过SmolVLA策略模型,在单一工作站上实现了从1块GPU到4块GPU的分布式数据生成实验。这一创新不仅验证了多GPU并行架构在机器人操作数据生成中的可行性,更揭示了线性扩展至75.7%效率的潜力,为后续大规模机器人学习任务奠定了数据基础设施。作为该领域的标杆性项目,Seed2Scale在24小时内产出逾10万条成功轨迹,显著推动了数据驱动型机器人操作研究的进程。
当前挑战
Seed2Scale数据集面临的核心挑战在于多GPU协同下数据生成吞吐量与轨迹质量的双重保障。首先,机器人操作领域长期受困于真实物理交互数据的稀缺性,传统单机采集模式效率低下,难以满足大规模训练需求;其次,在GPU数量从1扩展至4的过程中,需克服多实例协调引发的性能衰减,尽管4GPU配置仍保持了98.29%的高成功率,但线性扩展效率从90.3%降至75.7%,凸显了分布式调度优化的必要性。此外,构建过程中还需应对每GPU负载均衡的稳定性、空间采样覆盖的一致性以及存储与视频时长的指数级增长等问题,这些挑战共同定义了当前数据生成技术的瓶颈与未来突破方向。
常用场景
经典使用场景
在机器人学习与技能获取的研究领域,该数据集扮演着基准测试的核心角色,专用于验证多GPU并行架构下机器人操作轨迹数据的规模化生成能力。它围绕一个典型的厨房场景任务——将红色薯片拾取并放入黄色篮子,通过系统性地对比单卡、双卡及四卡配置下的生成通量与轨迹质量,为评估数据生成范式的可扩展性提供了标准化平台。
解决学术问题
该数据集针对机器人领域中数据稀缺与生成效率低下的关键瓶颈,系统性地回答了多计算节点协同是否能在保持高任务成功率的同时实现数据产量的线性增长。实验表明,四卡配置下成功轨迹数量达到单卡的三倍以上,且成功率稳定在98%以上,从而实证了分布式数据生成在机器人策略学习中的可行性与稳健性,为大规模自监督数据采集提供了坚实的理论支撑。
实际应用
在实际的机器人部署与工业自动化场景中,该数据集所验证的高效生成方法可大幅降低数据获取的时间与经济成本。企业或研究机构可借助单工作站的四卡配置,在24小时内生成超过5万条有效操作轨迹,直接服务于技能策略的训练与迁移。这使得从仿真环境到真实世界的机器人技能泛化成为可能,尤其在服务机器人、仓储物流等需要快速迭代操作的领域展现出巨大潜力。
数据集最近研究
最新研究方向
该数据集聚焦于机器人操作领域的规模化数据自动生成范式,通过多GPU并行架构在单一工作站上实现从1到4卡的线性扩展实验,探索了数据吞吐量、轨迹成功率与空间采样覆盖度之间的权衡关系。当前前沿方向集中在大规模合成数据驱动下的具身智能策略泛化能力提升,特别是结合视觉-语言模型的闭环控制。研究强调了数据质量与生成效率的协同优化,揭示了多卡调度在保持98%以上任务成功率的同时,如何突破物理采集瓶颈,为低成本、高保真机器人训练数据生态建设提供了关键实证。该工作的意义在于推动了仿真-现实迁移中数据瓶颈的解决方案向本地化、可复现方向演进。
以上内容由遇见数据集搜集并总结生成



