so-combined-ru

Hugging Face2025-11-15 更新2025-11-16 收录

下载链接：

https://huggingface.co/datasets/dunnolab/so-combined-ru

下载链接

链接失效反馈

官方服务：

资源简介：

这是一个由598个俄语开放社区数据集合并而成的统一数据集，包括22,709个视频片段和大约9,400,000帧图像，覆盖563种不同的机器人任务。数据集已经过标准化处理，并使用Qwen3-VL-8B-Instruct模型进行了视角分类和任务重注释。

创建时间：

2025-11-14

原始信息汇总

数据集概述

基本信息

数据集名称: so-combined-ru
许可证: Apache-2.0
任务类别: 机器人技术
标签: LeRobot
语言: 俄语

数据集规模

总数据集数量: 598个开放数据集
总训练回合数: 22,709个回合
总帧数: 约9.4百万帧
任务数量: 563个不同任务

数据处理与标准化

相机视角标准化

使用Qwen3-VL-8B-Instruct模型对所有图像进行分类
统一分类为三种视角：TOP、GRIPPER或SIDE
所有数据集都包含TOP和GRIPPER视角
缺失SIDE视角的数据集补充零值图像

任务重新标注

使用Qwen3-VL-8B-Instruct模型改进任务标注
结合视频数据和原始任务描述进行重新标注
所有任务描述已翻译为俄语

视频标准化

统一编码格式：H.264
统一帧率：30 FPS
统一分辨率：480×640

无效动作清理

移除回合开始和结束的无效动作片段
删除仅包含无效状态的完整回合
相应视频和parquet文件已裁剪
共移除12.7%的无效数据

数据结构

文件组织

数据文件: data//.parquet
元数据文件: meta/info.json
视频文件: videos/chunk-{episode_chunk:03d}/{video_key}/episode_{episode_index:06d}.mp4

特征字段

action: 6维浮点数组，包含机械臂关节控制
observation.state: 6维浮点数组，机械臂状态观测
observation.images.gripper: 夹爪视角视频，480×640×3
observation.images.top: 顶部视角视频，480×640×3
observation.images.side: 侧面视角视频，480×640×3
timestamp: 时间戳
frame_index: 帧索引
episode_index: 回合索引
index: 数据索引
task_index: 任务索引

技术规格

代码库版本: v2.1
机器人类型: so100
总视频数: 68,127
数据块数: 23
块大小: 1000
帧率: 30 FPS
数据分割: 训练集包含所有22,709个回合

数据来源

数据集整合了来自社区贡献者的598个开放数据集，包含众多个人和组织的贡献。

搜集汇总

数据集介绍

构建方式

在机器人技术领域，数据集的整合与标准化是推动算法发展的关键环节。so-combined-ru数据集通过LeRobot库，将598个社区开放数据集融合为统一语料，涵盖22,709个片段和约940万帧图像，涉及563项任务。构建过程中，采用Qwen3-VL-8B-Instruct模型对相机视角进行归一化处理，划分为TOP、GRIPPER和SIDE三类，缺失视角以零图像补充。任务标注通过同一模型优化，结合视频数据与原始描述，并完成俄语翻译。视频数据统一采用H.264编码、30帧率及480×640分辨率，同时剔除首尾无效动作段，移除纯无效片段，使无效数据减少12.7%。

特点

该数据集在机器人学习领域展现出显著的多样性与规范性。其核心特征在于覆盖广泛的任务类型，包含22,709个片段和940万帧图像，涉及563种不同任务，为模型训练提供丰富场景。数据结构高度统一，动作与状态观测均以6维浮点向量表示，涵盖肩部平移、抬升、肘部弯曲等关节控制。多视角图像数据包含夹爪、顶部和侧面视角，均以480×640分辨率标准化存储，确保视觉输入一致性。数据集采用分块存储机制，划分为23个区块，支持高效访问与处理，所有视频均以H.264编码，帧率稳定为30 FPS。

使用方法

在机器人算法开发中，该数据集为模型训练与评估提供结构化支持。用户可通过parquet文件访问数据，其中动作、观测状态及多视角图像分别存储于指定特征字段。数据路径按区块组织，视频文件以MP4格式存放于videos目录，支持直接加载与流式处理。训练集涵盖全部22,709个片段，帧索引与时间戳确保时序对齐。开发者可利用动作向量控制机器人关节运动，结合多视角图像输入构建感知-控制闭环。数据集兼容主流机器学习框架，其标准化格式便于迁移学习与跨任务验证，为机器人行为克隆与强化学习研究奠定基础。

背景与挑战

背景概述

在机器人学习领域，大规模多样化数据集对推动模仿学习与强化学习算法发展具有关键意义。so-combined-ru数据集由HuggingFace社区通过LeRobot平台整合构建，汇聚了598个开源数据集的22709个任务片段，涵盖563种机器人操作任务。该数据集通过统一标注框架与多视角视觉数据标准化，为俄语区机器人研究社区提供了包含940万帧图像的多模态训练资源，显著提升了跨任务泛化能力的基准水平。

当前挑战

该数据集致力于解决机器人操作任务中动作序列建模与视觉感知联合优化的核心难题。构建过程中面临三大挑战：原始数据中相机视角命名规范缺失需通过Qwen3-VL模型进行视角重分类；跨数据集动作空间异构性要求开发统一动作表征范式；时序数据冗余导致需设计智能裁剪算法消除12.7%无效操作片段，这些技术瓶颈的突破为大规模机器人数据集融合建立了新范式。

常用场景

经典使用场景

在机器人学习领域，so-combined-ru数据集作为大规模多任务视觉动作数据集，主要应用于模仿学习与行为克隆研究。其整合了598个社区数据集形成的统一语料，通过标准化视觉视角与动作标注，为算法开发提供了涵盖563种任务的多样化训练环境。研究者可基于该数据集构建端到端策略网络，利用多视角图像输入预测机器人关节控制指令，显著提升模型在复杂场景下的泛化能力。

解决学术问题

该数据集有效解决了机器人学习中的三大核心问题：其一，通过视角归一化与任务重标注消除了异构数据集的语义鸿沟；其二，借助大规模多任务样本缓解了策略过拟合现象；其三，标准化视频编码与无效动作剔除提升了数据质量。这些改进使得跨任务知识迁移成为可能，为元强化学习、多模态感知等前沿方向提供了可靠基准。

衍生相关工作

基于该数据集衍生的经典研究包括LeRobot团队提出的分层强化学习框架，其通过任务索引机制实现了跨场景策略复用。另有研究者利用视角对齐特征开发了多模态融合网络，在机器人抓取基准测试中取得突破性进展。近期工作则聚焦于语言引导的任务理解，通过俄语任务描述与视觉动作的联合嵌入，推动了具身智能的语义 grounding 研究。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集