dunnolab/so-combined-ru
收藏Hugging Face2025-11-15 更新2025-12-20 收录
下载链接:
https://hf-mirror.com/datasets/dunnolab/so-combined-ru
下载链接
链接失效反馈官方服务:
资源简介:
---
license: apache-2.0
task_categories:
- robotics
tags:
- LeRobot
configs:
- config_name: default
data_files: data/*/*.parquet
language:
- ru
---
Датасет создан при помощи библиотеки [LeRobot](https://github.com/huggingface/lerobot).
## Описание датасета
Русскоязычная версия данного датасета объединяет **598 открытых датасетов сообщества** в единый унифицированный корпус, включающий **22 709 эпизодов** и примерно **9,4 миллиона кадров** по **563 различным задачам**. Для обеспечения стандартизации и качества данных были выполнены следующие преобразования:
### Нормализация ракурсов камеры
Поскольку датасеты сообщества не используют общепринятую схему именования ракурсов камеры, мы применили модель **Qwen3-VL-8B-Instruct** для классификации всех изображений по одной из трех категорий: **TOP**, **GRIPPER** или **SIDE**. Все датасеты содержат ракурсы TOP и GRIPPER. Датасеты, в которых отсутствовал ракурс SIDE, были дополнены нулевым изображением.
### Переаннотирование задач
Мы использовали **Qwen3-VL-8B-Instruct** для улучшения аннотаций задач там, где это было необходимо. Процесс переразметки учитывал как видеоданные, так и исходные описания задач, когда они были доступны. Для русскоязычной версии датасета все описания задач были переведены на русский язык.
### Стандартизация видео
Для обеспечения корректного объединения датасетов все видеоролики были перекодированы с использованием единого кодека (**H.264**), частоты кадров (**30 FPS**) и разрешения (**480×640**).
### Удаление no-op действий
Мы удалили no-op сегменты в начале и конце эпизодов, а также полностью исключили эпизоды, состоящие только из no-op состояний. Соответствующие видео и parquet файлы были обрезаны. В результате, из исходного датасета было удалено **12,7%** no-op данных.
- **Лицензия:** Apache-2.0
## Сообщество-участники
Мы выражаем благодарность всем участникам сообщества, чьи датасеты были использованы в данном репозитории:
- 00ri
- 1zzx23
- 356c
- AndrejOrsula
- Askel1419
- BobBobbson
- CSCSXX
- CnLori
- Congying1112
- DGEs
- Daiki127
- Dangvi
- DanqingZ
- DorayakiLin
- EGLima
- Evelynix
- EverNorif
- Gano007
- Haribot099
- HarrisonLee24
- Hennadiy
- Jiangeng
- Kazu1232
- KeerthanKrish
- Killian74
- Kimz1
- LeRobot-worldwide-hackathon
- LemonadeDai
- LightwheelAI
- LittleFire99
- Loki0929
- Mazytomo
- Micksavioz
- Mwuqiu
- NeilKim
- Odog16
- Pi-robot
- Qiushuang
- RASPIAUDIO
- RaulSaya
- Rayenghali
- ReubenLim
- Revilo7
- RickRain
- Rorschach4153
- SahilChande
- SeanLMH
- SharkDan
- ShockleyWong
- Stevenyu8888
- SurajChess
- Thorns07
- Trelis
- TzuShian
- UN-kk
- VoicAndrei
- Xiewei1211
- YSanYi
- Yanis7777
- ZGGZZG
- Zak-Y
- ZibinDong
- aaron-ser
- aaronsu11
- abhiloiwal2
- abhisb
- abokinala
- acyanbird
- aiden-li
- alexis779
- allenchienxxx
- amrltqt
- andy309
- apayan
- aractingi
- arulloomba
- avea-robotics
- badwolf256
- bap13
- bensprenger
- boyangs235
- brcg3
- budinggou
- cHemingway
- cezarsolo
- cjlqwe
- cyoung96
- danaaubakirova
- davidgoss
- dc2ac
- demon-zozo
- desroziers
- dleon23
- dongseon
- drjaisree25
- dsfsg
- duthvik
- easonjcc
- edgarkim
- emmanuel-v
- enpeicv
- fbeltrao
- francescocrivelli
- frk2
- ganondorofu
- gmm0820
- guanfengliu
- gxy1111
- haijunsu-osu
- hannb
- hoon-shin
- howld
- hrhraj
- huyouare
- jchun
- jcsux
- jiajun001
- jlesein
- jmendoza-10
- jpizarrom
- juni3227
- jyang-ca
- k1000dai
- kagyvro48
- kaiserbuffle
- kaiyuwu010
- karimnihal
- kivod
- kkurzweil
- kristaqp
- legion1581
- leolin6
- lerobot
- lerobot-edinburgh-white-team
- liamlau
- lijinghai
- lime66
- littledragon
- liyitenga
- ljw1105
- love3165303
- lucasfv
- luriss
- maitereo
- masakinoda
- masato-ka
- mathieutk
- nbirukov
- northhycao
- nuoyihan
- omkarmayekar555
- opan08
- oretti
- orsoromeo
- pandaRQ
- paultr
- pbvr
- pdd46465
- pr0tos
- pranavsaroha
- psavnani5
- ptizzza
- puneetpanwar
- reeced
- ricky0526
- roboticshack
- rowb1
- rs545837
- ryanpennings
- s-higurashi
- samanthalhy
- samsam0510
- samsitol
- seonixx
- seunghoney
- shylee
- slowturtle99
- sshh11
- strainflow
- suessmann
- sunq
- szfforever
- taiobot
- targabor
- tfoldi
- therarelab
- thimble
- tinkhireeva
- tkc79
- tlf123
- tobdeu
- triton7777
- un1c0rnio
- uuysi
- vednot25t
- wangranryan
- weblucas
- weiye11
- wvangils
- y1y2y3
- yingliu-data
- yinxinyuchen
- yo-michi22
- youliangtan
- yuk6ra
- yunhezhui123
- yuto083
- yuz1wan
- zacapa
- zaringleb
- zheng6677
- zlj666
- zonglin1104
## Структура Данных
[meta/info.json](meta/info.json):
```json
{
"codebase_version": "v2.1",
"robot_type": "so100",
"total_episodes": 22709,
"total_frames": 9443507,
"total_tasks": 563,
"total_videos": 68127,
"total_chunks": 23,
"chunks_size": 1000,
"fps": 30,
"splits": {
"train": "0:22709"
},
"data_path": "data/chunk-{episode_chunk:03d}/episode_{episode_index:06d}.parquet",
"video_path": "videos/chunk-{episode_chunk:03d}/{video_key}/episode_{episode_index:06d}.mp4",
"features": {
"action": {
"dtype": "float32",
"shape": [
6
],
"names": [
"main_shoulder_pan",
"main_shoulder_lift",
"main_elbow_flex",
"main_wrist_flex",
"main_wrist_roll",
"main_gripper"
]
},
"observation.state": {
"dtype": "float32",
"shape": [
6
],
"names": [
"main_shoulder_pan",
"main_shoulder_lift",
"main_elbow_flex",
"main_wrist_flex",
"main_wrist_roll",
"main_gripper"
]
},
"observation.images.gripper": {
"dtype": "video",
"shape": [
480,
640,
3
],
"names": [
"height",
"width",
"channels"
],
"info": {
"video.height": 480,
"video.width": 640,
"video.codec": "h264",
"video.pix_fmt": "yuv420p",
"video.is_depth_map": false,
"video.fps": 30,
"video.channels": 3,
"has_audio": false
}
},
"observation.images.top": {
"dtype": "video",
"shape": [
480,
640,
3
],
"names": [
"height",
"width",
"channels"
],
"info": {
"video.height": 480,
"video.width": 640,
"video.codec": "h264",
"video.pix_fmt": "yuv420p",
"video.is_depth_map": false,
"video.fps": 30,
"video.channels": 3,
"has_audio": false
}
},
"observation.images.side": {
"dtype": "video",
"shape": [
480,
640,
3
],
"names": [
"height",
"width",
"channels"
],
"info": {
"video.height": 480,
"video.width": 640,
"video.codec": "h264",
"video.pix_fmt": "yuv420p",
"video.is_depth_map": false,
"video.fps": 30,
"video.channels": 3,
"has_audio": false
}
},
"timestamp": {
"dtype": "float32",
"shape": [
1
],
"names": null
},
"frame_index": {
"dtype": "int64",
"shape": [
1
],
"names": null
},
"episode_index": {
"dtype": "int64",
"shape": [
1
],
"names": null
},
"index": {
"dtype": "int64",
"shape": [
1
],
"names": null
},
"task_index": {
"dtype": "int64",
"shape": [
1
],
"names": null
}
},
"repo_id": "dunno/merged"
}
```
许可证:Apache-2.0
任务类别:
- 机器人学
标签:
- LeRobot
配置:
- 配置名称:default
数据文件:data/*/*.parquet
语言:俄语
本数据集基于[LeRobot](https://github.com/huggingface/lerobot)库构建。
## 数据集说明
本俄语版本数据集将**598个社区开源数据集**整合为统一的标准化语料库,涵盖**22709个任务片段**与约**940万帧图像**,覆盖**563项不同任务**。为保障数据标准化与质量,我们开展了如下预处理操作:
### 一、相机视角标准化
由于社区各数据集未采用统一的相机视角命名规范,我们使用**Qwen3-VL-8B-Instruct**模型将所有图像划分为三大类别:**顶部视角(TOP)**、**机械爪视角(GRIPPER)**与**侧面视角(SIDE)**。所有数据集均包含TOP与GRIPPER视角,对于缺失SIDE视角的数据集,我们补充了空白图像。
### 二、任务标注优化
我们针对需要优化的任务,使用**Qwen3-VL-8B-Instruct**模型重新优化任务标注。该重标注过程同时结合了视频数据与可用的原始任务描述。针对本俄语版本数据集,所有任务描述均已翻译成俄语。
### 三、视频标准化
为实现数据集的正确整合,我们将所有视频统一转码为**H.264**编码格式,帧率设置为**30 FPS**,分辨率统一为**480×640**。
### 四、无操作(no-op)片段清理
我们移除了任务片段首尾的无操作(no-op)片段,并彻底删除了仅包含无操作状态的任务片段。同时对对应的视频与Parquet文件进行了裁剪。最终,原数据集中**12.7%**的无操作数据已被移除。
- **许可证**:Apache-2.0
## 贡献社区与参与者
我们对所有为本仓库提供数据集的社区参与者表示衷心感谢:
- 00ri
- 1zzx23
- 356c
- AndrejOrsula
- Askel1419
- BobBobbson
- CSCSXX
- CnLori
- Congying1112
- DGEs
- Daiki127
- Dangvi
- DanqingZ
- DorayakiLin
- EGLima
- Evelynix
- EverNorif
- Gano007
- Haribot099
- HarrisonLee24
- Hennadiy
- Jiangeng
- Kazu1232
- KeerthanKrish
- Killian74
- Kimz1
- LeRobot-worldwide-hackathon
- LemonadeDai
- LightwheelAI
- LittleFire99
- Loki0929
- Mazytomo
- Micksavioz
- Mwuqiu
- NeilKim
- Odog16
- Pi-robot
- Qiushuang
- RASPIAUDIO
- RaulSaya
- Rayenghali
- ReubenLim
- Revilo7
- RickRain
- Rorschach4153
- SahilChande
- SeanLMH
- SharkDan
- ShockleyWong
- Stevenyu8888
- SurajChess
- Thorns07
- Trelis
- TzuShian
- UN-kk
- VoicAndrei
- Xiewei1211
- YSanYi
- Yanis7777
- ZGGZZG
- Zak-Y
- ZibinDong
- aaron-ser
- aaronsu11
- abhiloiwal2
- abhisb
- abokinala
- acyanbird
- aiden-li
- alexis779
- allenchienxxx
- amrltqt
- andy309
- apayan
- aractingi
- arulloomba
- avea-robotics
- badwolf256
- bap13
- bensprenger
- boyangs235
- brcg3
- budinggou
- cHemingway
- cezarsolo
- cjlqwe
- cyoung96
- danaaubakirova
- davidgoss
- dc2ac
- demon-zozo
- desroziers
- dleon23
- dongseon
- drjaisree25
- dsfsg
- duthvik
- easonjcc
- edgarkim
- emmanuel-v
- enpeicv
- fbeltrao
- francescocrivelli
- frk2
- ganondorofu
- gmm0820
- guanfengliu
- gxy1111
- haijunsu-osu
- hannb
- hoon-shin
- howld
- hrhraj
- huyouare
- jchun
- jcsux
- jiajun001
- jlesein
- jmendoza-10
- jpizarrom
- juni3227
- jyang-ca
- k1000dai
- kagyvro48
- kaiserbuffle
- kaiyuwu010
- karimnihal
- kivod
- kkurzweil
- kristaqp
- legion1581
- leolin6
- lerobot
- lerobot-edinburgh-white-team
- liamlau
- lijinghai
- lime66
- littledragon
- liyitenga
- ljw1105
- love3165303
- lucasfv
- luriss
- maitereo
- masakinoda
- masato-ka
- mathieutk
- nbirukov
- northhycao
- nuoyihan
- omkarmayekar555
- opan08
- oretti
- orsoromeo
- pandaRQ
- paultr
- pbvr
- pdd46465
- pr0tos
- pranavsaroha
- psavnani5
- ptizzza
- puneetpanwar
- reeced
- ricky0526
- roboticshack
- rowb1
- rs545837
- ryanpennings
- s-higurashi
- samanthalhy
- samsam0510
- samsitol
- seonixx
- seunghoney
- shylee
- slowturtle99
- sshh11
- strainflow
- suessmann
- sunq
- szfforever
- taiobot
- targabor
- tfoldi
- therarelab
- thimble
- tinkhireeva
- tkc79
- tlf123
- tobdeu
- triton7777
- un1c0rnio
- uuysi
- vednot25t
- wangranryan
- weblucas
- weiye11
- wvangils
- y1y2y3
- yingliu-data
- yinxinyuchen
- yo-michi22
- youliangtan
- yuk6ra
- yunhezhui123
- yuto083
- yuz1wan
- zacapa
- zaringleb
- zheng6677
- zlj666
- zonglin1104
## 数据结构
[meta/info.json](meta/info.json):
json
{
"codebase_version": "v2.1",
"robot_type": "so100",
"total_episodes": 22709,
"total_frames": 9443507,
"total_tasks": 563,
"total_videos": 68127,
"total_chunks": 23,
"chunks_size": 1000,
"fps": 30,
"splits": {
"train": "0:22709"
},
"data_path": "data/chunk-{episode_chunk:03d}/episode_{episode_index:06d}.parquet",
"video_path": "videos/chunk-{episode_chunk:03d}/{video_key}/episode_{episode_index:06d}.mp4",
"features": {
"action": {
"dtype": "float32",
"shape": [
6
],
"names": [
"main_shoulder_pan",
"main_shoulder_lift",
"main_elbow_flex",
"main_wrist_flex",
"main_wrist_roll",
"main_gripper"
]
},
"observation.state": {
"dtype": "float32",
"shape": [
6
],
"names": [
"main_shoulder_pan",
"main_shoulder_lift",
"main_elbow_flex",
"main_wrist_flex",
"main_wrist_roll",
"main_gripper"
]
},
"observation.images.gripper": {
"dtype": "video",
"shape": [
480,
640,
3
],
"names": [
"height",
"width",
"channels"
],
"info": {
"video.height": 480,
"video.width": 640,
"video.codec": "h264",
"video.pix_fmt": "yuv420p",
"video.is_depth_map": false,
"video.fps": 30,
"video.channels": 3,
"has_audio": false
}
},
"observation.images.top": {
"dtype": "video",
"shape": [
480,
640,
3
],
"names": [
"height",
"width",
"channels"
],
"info": {
"video.height": 480,
"video.width": 640,
"video.codec": "h264",
"video.pix_fmt": "yuv420p",
"video.is_depth_map": false,
"video.fps": 30,
"video.channels": 3,
"has_audio": false
}
},
"observation.images.side": {
"dtype": "video",
"shape": [
480,
640,
3
],
"names": [
"height",
"width",
"channels"
],
"info": {
"video.height": 480,
"video.width": 640,
"video.codec": "h264",
"video.pix_fmt": "yuv420p",
"video.is_depth_map": false,
"video.fps": 30,
"video.channels": 3,
"has_audio": false
}
},
"timestamp": {
"dtype": "float32",
"shape": [
1
],
"names": null
},
"frame_index": {
"dtype": "int64",
"shape": [
1
],
"names": null
},
"episode_index": {
"dtype": "int64",
"shape": [
1
],
"names": null
},
"index": {
"dtype": "int64",
"shape": [
1
],
"names": null
},
"task_index": {
"dtype": "int64",
"shape": [
1
],
"names": null
}
},
"repo_id": "dunno/merged"
}
提供机构:
dunnolab



