AU Dataset for Visuo-Haptic Object Recognition for Robots

Name: AU Dataset for Visuo-Haptic Object Recognition for Robots
Creator: 奥胡斯大学电气与计算机工程系
Published: 2021-12-28 00:15:11
License: 暂无描述

arXiv2021-12-28 更新2024-06-21 收录

下载链接：

https://doi.org/10.6084/m9.figshare.14222486

下载链接

链接失效反馈

官方服务：

资源简介：

AU数据集是专为机器人设计的视觉-触觉物体识别数据集，由奥胡斯大学电气与计算机工程系创建。该数据集包含63个物体的视觉、动觉和触觉（音频/振动）数据，旨在解决多模态物体识别中的视觉和触觉模糊性问题。数据集创建过程中，采用了多种探索程序来捕捉物体的视觉和触觉特性，如视觉探索、动觉探索和触觉探索。该数据集适用于机器人感知研究，特别是多模态物体识别和数据融合领域，旨在通过整合视觉和触觉信息提高物体识别的准确性。

The AU Dataset is a visual-tactile object recognition dataset designed specifically for robotics, created by the Department of Electrical and Computer Engineering at Aarhus University. This dataset contains visual, kinesthetic, and tactile (audio/vibration) data for 63 distinct objects, aiming to address the visual and tactile ambiguities in multimodal object recognition. During the dataset creation process, multiple exploration procedures were adopted to capture the visual and tactile properties of the objects, including visual exploration, kinesthetic exploration and tactile exploration. This dataset is applicable to robotics perception research, particularly in the fields of multimodal object recognition and data fusion, with the objective of improving the accuracy of object recognition by integrating visual and tactile information.

提供机构：

奥胡斯大学电气与计算机工程系

创建时间：

2021-12-28

搜集汇总

数据集介绍

构建方式

在机器人视觉-触觉物体识别领域，多模态数据集的构建尚处于探索阶段。本数据集采用系统化的采集流程，涵盖63个具有视觉与触觉模糊性的日常物体。数据采集基于Lederman与Klatzky提出的探索性程序理论，将过程划分为视觉、动觉与触觉三个阶段。视觉探索通过高分辨率相机在优化光照下捕获物体多角度图像；动觉探索借助RH8D仿人机械手实施“无支撑持握”与“包裹”操作，以获取物体的重量与整体形状信息；触觉探索则利用NAO机器人执行“横向移动”与“压力”程序，通过接触式麦克风阵列记录物体纹理与硬度产生的振动信号。整个实验设置经过精心设计，包括麦克风位置优化与专用指纹模拟指套的使用，确保数据质量与多样性。

特点

该数据集的核心特点在于其多模态性与模糊性设计。数据集整合了视觉、动觉与触觉三类传感数据，其中视觉数据包含高分辨率物体图像与背景图，动觉数据提供机械手关节位置与电流读数，触觉数据则收录了400kHz采样率的振动信号。物体选择策略刻意引入了视觉与触觉层面的模糊性，例如包含形状颜色相似但材质相异的物体，或内部填充物不同导致仅通过触觉可区分的物体。这种设计迫使研究者必须融合多模态信息才能实现精确识别，从而推动了跨模态感知算法的发展。数据集规模超过50个物体，涵盖了玩具与家居用品等多种材质与形态，具有较强的现实代表性。

使用方法

该数据集适用于多模态物体识别、传感器融合及机器人感知研究。使用者可通过解析其层次化文件夹结构获取原始数据：视觉图像存储于JPEG格式，动觉与触觉数据则以CSV文件形式记录。研究过程中，可分别提取各模态特征进行单模态分析，或设计融合框架整合视觉外观、物体重量、形状轮廓及纹理振动等多源信息。数据集提供的背景噪声样本可用于信号去噪预处理。此外，数据包含三次重复测量与物体重定位，支持算法鲁棒性评估。研究者可基于该数据集开发新型融合模型，探索跨模态互补机制，或将其作为基准测试平台验证现有识别系统的性能。

背景与挑战

背景概述

随着机器人感知技术的演进，多模态物体识别逐渐成为提升机器人环境交互能力的关键研究方向。然而，该领域长期面临公开数据集稀缺且规模有限的挑战。在此背景下，奥胡斯大学的研究团队于2021年推出了AU Dataset for Visuo-Haptic Object Recognition for Robots，旨在填补这一空白。该数据集聚焦于视觉与触觉融合的物体识别问题，收录了63个具有视觉或触觉模糊性的日常物体，通过整合高分辨率图像、动觉数据及触觉振动信息，为多模态感知算法的开发提供了丰富资源。其核心研究在于探索如何通过感官融合解决单一模态的感知歧义，进而推动机器人对复杂物体的精准识别与操作，对机器人感知与人工智能交叉领域产生了显著的促进作用。

当前挑战

该数据集致力于解决多模态物体识别中的核心挑战，即如何有效融合视觉与触觉信息以克服单一感官的歧义性，例如区分外观相似但材质相异的物体。在构建过程中，研究团队面临多重技术难题：首先，需设计合理的探索流程以同步捕获物体的视觉、动觉与触觉属性，这涉及对机器人操作序列的精细规划；其次，硬件集成带来复杂性，例如为NAO机器人定制3D打印指套以增强振动信号，并优化接触式麦克风的布局以提升数据质量；此外，数据采集需确保对象涵盖充分的多样性与模糊性，同时兼顾机器人操作器的物理限制，如物体尺寸与重量的适配性，这些因素共同增加了数据集构建的难度与严谨性要求。

常用场景

经典使用场景

在机器人感知领域，多模态对象识别正逐渐成为提升环境交互能力的关键技术。AU数据集通过整合视觉、动觉与触觉数据，为研究机器人如何融合不同感官信息以准确识别物体提供了经典范例。该数据集特别适用于探索在视觉或触觉单独存在模糊性时，多模态融合如何增强识别鲁棒性，常被用于训练和评估跨模态学习模型，推动机器人从单一感知向综合感知演进。

衍生相关工作

基于AU数据集，研究者已展开多项经典衍生工作。例如，Buhl与Bonner以及Kristensen的硕士论文深入探讨了生物启发的多模态融合学习策略，验证了感官整合在提升识别精度中的必要性。同时，该数据集也延续了Toprak等人早期在视触觉对象识别评估方面的研究脉络，为后续跨模态神经网络架构、传感器优化及实时融合算法的创新提供了数据基础，持续推动机器人多模态感知领域的技术演进。

数据集最近研究