Dexora Dataset
收藏arXiv2026-05-19 更新2026-05-20 收录
下载链接:
https://dexoravla.github.io
下载链接
链接失效反馈官方服务:
资源简介:
Dexora数据集是由清华大学与北京通用人工智能研究院等机构联合构建的大规模双臂双手灵巧操作数据集,旨在为视觉-语言-动作模型提供真实世界与仿真互补的训练资源。该数据集包含10万条模拟轨迹(约650万帧,361小时视频)和1万条真实遥操作演示(约292万帧,40.5小时),数据来源于通过混合遥操作系统采集的双臂双手36自由度机器人操作记录。数据集创建过程采用仿真-现实协同策略,通过外骨骼背包与无标记手部追踪技术实现高保真数据采集,并遵循LIBERO-2.1标准进行规范化处理。该数据集主要应用于机器人灵巧操作、跨具身泛化等研究领域,致力于解决高自由度双臂协调操作中数据稀缺与仿真到现实迁移的挑战。
The Dexora Dataset is a large-scale dual-arm and dual-hand dexterous manipulation dataset jointly developed by Tsinghua University, Beijing Institute for General Artificial Intelligence and other institutions. It aims to provide complementary training resources for visual-language-action (VLA) models between real-world and simulation environments. The dataset contains 100,000 simulated trajectories (approximately 6.5 million frames, totaling 361 hours of video) and 10,000 real teleoperation demonstrations (approximately 2.92 million frames, totaling 40.5 hours). The data is collected from the operation records of a dual-arm and dual-hand robot with 36 degrees of freedom via a hybrid teleoperation system. The dataset construction adopts a simulation-reality collaborative strategy, achieves high-fidelity data collection through exoskeleton backpacks and markerless hand tracking technologies, and undergoes standardized processing in accordance with the LIBERO-2.1 standard. This dataset is primarily applied in research fields such as robotic dexterous manipulation and cross-embodiment generalization, and aims to address the challenges of data scarcity and simulation-to-reality transfer in high-degree-of-freedom dual-arm coordinated manipulation.
提供机构:
清华大学; 北京通用人工智能研究院; 香港大学; 上海交通大学; 上海科技大学; 北京大学
创建时间:
2026-05-19
搜集汇总
数据集介绍

构建方式
Dexora数据集的构建依托于一套创新的混合遥操作流水线。该流水线将粗粒度的手臂运动学与精细的手指运动解耦:手臂运动通过定制的双上肢外骨骼背包捕捉操作者的肩-肘-腕角度并直接映射到机器人关节空间,实现无漂移、低延迟的轨迹采集;手指运动则借助Apple Vision Pro进行无标记的3D手部骨架追踪,经校准后重定向至具12个独立驱动关节的XHAND灵巧手。这一混合界面同时驱动物理机器人与MuJoCo数字孪生体,所有感知流(四路RGB视图与完整36自由度关节状态)以20Hz频率同步记录。基于此平台,研究团队构建了大规模训练语料:包含100K条仿真轨迹(6.5M帧)与10K条遥操作实地演示(2.92M帧),其中仿真数据通过Qwen2.5-VL挖掘Objaverse物体库生成200项任务,每项任务收集3-5条种子演示后采用DexMimicGen方案扩增至500条轨迹。
使用方法
Dexora数据集的使用遵循三阶段质量感知训练流程。首先,在仿真数据上预训练基于解码器-仅变换器的扩散策略模型,赋予基础操作能力(如拾取与放置、装配)。其次,利用预训练策略计算每段真实轨迹的对数概率代理分数,训练一个由浅层变换器与MLP头部构成的离线判别器,该判别器以观测、语言指令及动作片段为条件输出质量评分。最后,在真实数据集上微调时,判别器输出的归一化分数被转换为训练权重,扩散Transformer的损失函数根据权重对高质量演示赋予更大惩罚,同时降低低质量轨迹的影响。推理时仅需使用训练好的策略模型,输入当前观测与语言指令即可生成动作序列。此方法可适配单臂夹爪、双臂夹爪及单臂低自由度手等多种具身形态,通过零填充未用动作维度实现跨具身泛化。
背景与挑战
背景概述
近年来,视觉-语言-动作(VLA)模型在具身智能领域展现出巨大潜力,然而现有系统或局限于双臂夹爪控制,或仅支持单臂灵巧手操作,难以应对需要双臂协调与高自由度手指精细操作的复杂任务。为填补这一空白,由清华大学、北京人工智能研究院、上海交通大学及北京大学等机构的研究人员于2026年共同推出了Dexora数据集,这是首个面向双臂双手高自由度操作的VLA系统。该数据集通过创新的混合遥操作管道构建,将粗粒度手臂运动学与细粒度手指运动分离,收集了100K仿真轨迹(6.5M帧)和10K真实遥操作数据(2.92M帧),为训练既具备基础操作能力又拥有灵巧操作技能的VLA模型奠定了坚实基础,推动了高自由度双臂灵巧操作研究的前沿发展。
当前挑战
Dexora数据集旨在解决当前VLA模型在双臂高自由度灵巧操作中的根本局限,即现有系统无法同时处理双臂协调与高自由度手指控制,例如活塞插入、瓶盖扭转等需要复杂协同的任务。在数据构建过程中,研究人员面临遥操作数据质量参差不齐的显著挑战,由于操作者技能差异、感知噪声和延迟等因素,采集的演示数据常包含不稳定或次优轨迹。为此,Dexora创新性地引入了判别器引导的质量感知训练框架,通过离线判别器为每条演示赋予质量分数,在扩散-Transformer策略训练中降低低质量片段的权重,从而有效抑制噪声干扰,确保策略能从大规模数据中学习到稳健的灵巧操作能力。
常用场景
经典使用场景
Dexora Dataset作为首个面向双臂双手高自由度灵巧操作的视觉-语言-动作(VLA)开源数据集,其经典使用场景聚焦于训练和评估能够同步控制双臂与高自由度手指的端到端策略模型。该数据集通过独特的混合遥操作流水线,在物理机器人及其MuJoCo数字孪生平台上同步采集数据,从而为模仿学习与扩散策略提供完美匹配的演示轨迹。研究者可借此训练出能够胜任诸如拧瓶盖、切韭菜等需要精细指尖协同与双手协调的灵巧操作任务,亦可针对任意物体执行稳健的拾取与放置操作。
解决学术问题
该数据集巧妙地攻克了高自由度双臂双手灵巧操作领域长期存在的数据稀缺与示范质量参差问题。通过提供包含10万条仿真轨迹与1万条真实遥操作片段的大规模数据,并引入判别器引导的质量感知训练策略,Dexora Dataset有效解决了噪声演示数据对策略学习的劣化影响。在学术意义上,它首次为双臂高自由度灵巧操作建立了可供公平比较的基准,将灵巧任务成功率从51.7%提升至66.7%,并揭示了仿真数据奠基、真实数据精调的双阶段训练范式在研究中的关键价值。
实际应用
在现实世界中,Dexora Dataset驱动的VLA模型展现出跨越多种机器人形态的泛化能力,尤其适合部署于需要精密手部操作与双臂协同的服务型机器人平台。例如,在厨房场景中执行切韭菜、揉面团等食物准备任务,或在实验室环境中进行精密试剂的瓶盖开启与液体转移。典型的实际应用包括工业装配线上的零件插入、医疗场景中的精细工具传递,以及家庭服务中的物品整理与书本检索,这些任务均要求机器人具备类似人类的手部灵活性与双臂协调能力。
数据集最近研究
最新研究方向
在具身智能浪潮中,Dexora数据集开创性地聚焦于双臂双手高自由度灵巧操作这一前沿方向。该研究通过混合遥操作管线解耦了粗大手臂运动与精细手指运动,并构建了包含10万条仿真轨迹与1万条真实遥操作数据的大规模语料库。尤为引人注目的是,研究团队引入了判别器引导的数据质量感知训练范式,有效克服了遥操作数据中噪声示范的干扰,使得基于扩散变换器的策略在灵巧操作基准上取得了66.7%的平均成功率,较基线提升了15个百分点。这一突破不仅验证了双臂高自由度灵巧操作在Vision-Language-Action模型中的可行性,更为实现跨具身形态的通用控制器提供了可扩展的实践经验,预示着机器人灵巧操作迈向更复杂、更类人的新阶段。
相关研究论文
- 1Dexora: Open-source VLA for High-DoF Bimanual Dexterity清华大学; 北京通用人工智能研究院; 香港大学; 上海交通大学; 上海科技大学; 北京大学 · 2026年
以上内容由遇见数据集搜集并总结生成



