VinT-6D|机器人操作数据集|多模态感知数据集

arXiv2024-12-31 更新2025-01-06 收录

机器人操作

多模态感知

下载链接：

https://VinT-6D.github.io/

下载链接

链接失效反馈

资源简介：

VinT-6D是由腾讯机器人X实验室、中山大学等机构联合创建的大规模多模态数据集，旨在提升机器人手内物体姿态估计的精度。该数据集包含200万条模拟数据（VinT-Sim）和10万条真实数据（VinT-Real），涵盖了视觉、触觉和本体感知信息。数据集通过MuJoCo和Blender进行模拟生成，并通过定制的多模态机器人平台收集真实数据，确保了数据的高质量和多模态对齐。VinT-6D主要用于机器人手内操作任务，特别是在视觉被遮挡的情况下，通过融合触觉和本体感知信息来提升物体姿态估计的准确性。

提供机构：

腾讯机器人X实验室, 中山大学, 加州大学默塞德分校, 中国科学院自动化研究所

创建时间：

2024-12-31

AI搜集汇总

数据集介绍

构建方式

VinT-6D数据集的构建采用了多模态数据采集方法，结合了视觉、触觉和本体感知信息。数据集分为VinT-Sim和VinT-Real两部分，分别通过MuJoCo和Blender仿真平台以及定制化的真实世界机器人平台进行数据收集。VinT-Sim通过物理仿真生成200万条数据，模拟了机器人手与物体的交互过程，确保触觉和视觉数据的精确对齐。VinT-Real则通过高精度的运动捕捉系统和多传感器集成，采集了10万条真实世界数据，确保了数据的多样性和高质量。

特点

VinT-6D数据集的特点在于其多模态数据的全面性和高质量。数据集不仅涵盖了视觉、触觉和本体感知信息，还提供了全手触觉感知数据，这在现有数据集中较为罕见。VinT-Real部分的数据采集克服了真实环境中传感器校准和多模态对齐的难题，确保了数据的精确性和实用性。此外，数据集中包含了25种日常物品，涵盖了不同材质和形状，进一步增强了数据集的多样性和泛化能力。

使用方法

VinT-6D数据集的使用方法主要围绕多模态信息的融合与6D物体姿态估计展开。研究人员可以通过数据集提供的视觉、触觉和本体感知数据，训练和验证多模态融合算法。VinT-Net作为基准方法，展示了如何通过融合视觉和触觉信息来提升物体姿态估计的精度。数据集还可用于研究机器人手在复杂抓取场景中的感知能力，特别是在视觉被遮挡的情况下，触觉和本体感知数据的补充作用。

背景与挑战

背景概述

VinT-6D数据集由Zhaoliang Wan等研究人员于2024年提出，旨在解决机器人手内物体6D姿态估计领域的大规模多模态数据稀缺问题。该数据集首次整合了视觉、触觉和本体感知三种模态，包含200万条模拟数据（VinT-Sim）和10万条真实数据（VinT-Real），分别通过MuJoCo和Blender模拟以及定制化的真实机器人平台采集。VinT-6D专注于机器人手内操作，提供了全手触觉感知和高精度对齐的多模态数据，显著推动了机器人感知与操作领域的研究。该数据集的发布填补了从模拟到真实环境的鸿沟，并为相关算法提供了基准测试平台。

当前挑战

VinT-6D数据集在构建和应用中面临多重挑战。首先，在领域问题方面，6D手内物体姿态估计的复杂性在于多模态数据的融合与对齐，尤其是在视觉被手部遮挡的情况下，触觉和本体感知数据的补充至关重要。其次，数据构建过程中，真实环境下的数据采集面临传感器校准、多模态对齐以及时间成本高等问题。此外，模拟数据与真实数据之间的域差距（sim2real gap）需要通过高精度模拟和真实数据采集来弥合。最后，数据集的多样性和通用性仍需进一步提升，以支持更广泛的机器人操作任务。

常用场景

经典使用场景

VinT-6D数据集在机器人手内物体姿态估计领域具有广泛的应用场景，尤其是在多模态感知（视觉、触觉和本体感知）的融合研究中。该数据集通过模拟和真实世界数据的结合，为研究人员提供了一个全面的基准，用于训练和验证多模态感知模型。其经典使用场景包括机器人手内物体的6D姿态估计、复杂抓取任务的规划与控制，以及多模态感知系统的性能评估。

解决学术问题

VinT-6D数据集解决了机器人手内物体姿态估计领域中的两大关键问题：一是现有数据集规模小、质量低，导致模型在真实环境中的泛化能力不足；二是现有方法多依赖于合成数据或两指夹持器，难以应对复杂场景中的遮挡和多指抓取问题。通过提供大规模、高质量的合成与真实数据，VinT-6D有效缩小了模拟与真实环境之间的差距，推动了多模态感知技术在机器人手内操作中的应用。

衍生相关工作

基于VinT-6D数据集，研究人员提出了多种经典的多模态感知模型和方法。例如，VinT-Net作为一个基准模型，通过融合视觉、触觉和本体感知信息，显著提升了6D姿态估计的精度。此外，该数据集还催生了一系列关于多模态感知融合、触觉信号建模以及模拟到真实环境迁移学习的研究工作，进一步推动了机器人手内操作技术的发展。

以上内容由AI搜集并总结生成

用户留言

有没有相关的论文或文献参考？

这个数据集是基于什么背景创建的？

数据集的作者是谁？

能帮我联系到这个数据集的作者吗？

这个数据集如何下载？

点击留言

数据主题

具身智能

数据集 4098个

机构 8个

大模型

数据集 439个

机构 10个

无人机

数据集 37个

机构 6个

指令微调

数据集 36个

机构 6个

蛋白质结构

数据集 50个

机构 8个

空间智能

数据集 21个

机构 5个

5,000+

优质数据集

54 个

任务类型

进入经典数据集

热门数据集

MedDialog

MedDialog数据集（中文）包含了医生和患者之间的对话（中文）。它有110万个对话和400万个话语。数据还在不断增长，会有更多的对话加入。原始对话来自好大夫网。

github 收录

中国1km分辨率逐月降水量数据集（1901-2024）

该数据集为中国逐月降水量数据，空间分辨率为0.0083333°（约1km），时间为1901.1-2024.12。数据格式为NETCDF，即.nc格式。该数据集是根据CRU发布的全球0.5°气候数据集以及WorldClim发布的全球高分辨率气候数据集，通过Delta空间降尺度方案在中国降尺度生成的。并且，使用496个独立气象观测点数据进行验证，验证结果可信。本数据集包含的地理空间范围是全国主要陆地（包含港澳台地区），不含南海岛礁等区域。为了便于存储，数据均为int16型存于nc文件中，降水单位为0.1mm。 nc数据可使用ArcMAP软件打开制图; 并可用Matlab软件进行提取处理，Matlab发布了读入与存储nc文件的函数，读取函数为ncread，切换到nc文件存储文件夹，语句表达为：ncread (‘XXX.nc’,‘var’, [i j t],[leni lenj lent])，其中XXX.nc为文件名，为字符串需要’’；var是从XXX.nc中读取的变量名，为字符串需要’’；i、j、t分别为读取数据的起始行、列、时间，leni、lenj、lent i分别为在行、列、时间维度上读取的长度。这样，研究区内任何地区、任何时间段均可用此函数读取。Matlab的help里面有很多关于nc数据的命令，可查看。数据坐标系统建议使用WGS84。

国家青藏高原科学数据中心收录

中国交通事故深度调查（CIDAS）数据集

交通事故深度调查数据通过采用科学系统方法现场调查中国道路上实际发生交通事故相关的道路环境、道路交通行为、车辆损坏、人员损伤信息，以探究碰撞事故中车损和人伤机理。目前已积累深度调查事故10000余例，单个案例信息包含人、车、路和环境多维信息组成的3000多个字段。该数据集可作为深入分析中国道路交通事故工况特征，探索事故预防和损伤防护措施的关键数据源，为制定汽车安全法规和标准、完善汽车测评试验规程、

北方大数据交易中心收录

TongueDx Dataset

TongueDx数据集是一个专为远程舌诊研究设计的综合性舌象图像数据集，由香港理工大学和新加坡管理大学的研究团队创建。该数据集包含5109张图像，涵盖了多种环境条件下的舌象，图像通过智能手机和笔记本电脑摄像头采集，具有较高的多样性和代表性。数据集不仅包含舌象图像，还提供了详细的舌面属性标注，如舌色、舌苔厚度等，并附有受试者的年龄、性别等人口统计信息。数据集的创建过程包括图像采集、舌象分割、标准化处理和多标签标注，旨在解决远程医疗中舌诊图像质量不一致的问题。该数据集的应用领域主要集中在远程医疗和中医诊断，旨在通过自动化技术提高舌诊的准确性和可靠性。

arXiv 收录

neuralcatcher/hateful_memes

The Hateful Memes Challenge数据集由Facebook AI创建，专注于检测多模态表情包中的仇恨言论，旨在推动和衡量多模态推理和理解方面的进展。数据集包含多种类型的训练和测试数据，每个示例包含文本、图像路径和标签，评估使用AUROC指标。

hugging_face 收录