MTevent

Name: MTevent
Creator: 德国多特蒙德工业大学与Lamarr机器学习与人工智能研究所
Published: 2025-05-16 22:18:21
License: 暂无描述

arXiv2025-05-16 更新2025-05-20 收录

下载链接：

https://huggingface.co/datasets/anas-gouda/MTevent

下载链接

链接失效反馈

官方服务：

资源简介：

MTevent是一个针对6D姿态估计和运动物体检测的数据集，由德国多特蒙德工业大学与Lamarr机器学习与人工智能研究所共同创建。数据集包含75个场景，每个场景平均16秒，共16个独特的物体，在极端视角、变化的光照和遮挡等挑战性条件下进行拍摄。MTevent是首个结合高速运动、长距离感知和现实世界物体交互的数据集，为推进基于事件的机器人视觉研究提供了宝贵的资源。数据集适用于机器人操纵、抓取、2D运动分割、3D边界框检测、光流估计和对象跟踪等多个任务。

MTevent is a dataset focused on 6D pose estimation and moving object detection, co-developed by Technische Universität Dortmund and the Lamarr Institute for Machine Learning and Artificial Intelligence. The dataset contains 75 scenes, each with an average duration of 16 seconds, and includes 16 distinct objects, captured under challenging conditions such as extreme viewpoints, varying illumination, and occlusions. MTevent is the first dataset that combines high-speed motion, long-range perception, and real-world object interactions, offering a valuable resource for advancing event-based robotic vision research. The dataset is applicable to multiple tasks including robotic manipulation, grasping, 2D motion segmentation, 3D bounding box detection, optical flow estimation, and object tracking.

提供机构：

德国多特蒙德工业大学与Lamarr机器学习与人工智能研究所

创建时间：

2025-05-16

原始信息汇总

数据集概述

基本信息

数据集名称: MTevent
语言: 英语 (en)
标签:
- EventCamera
- 6DPose
- 3DboundingBox
- StereoEventCamera

数据集特点

数据类型: 事件相机数据
应用领域:
- 6D姿态估计
- 3D边界框检测
- 立体事件相机相关研究

搜集汇总

数据集介绍

构建方式

MTevent数据集通过精心设计的传感器配置和场景录制流程构建而成，采用了立体事件相机与RGB相机协同工作的三相机系统架构。研究团队在工业级运动捕捉实验室中，利用VICON MoCap系统以200Hz频率精确追踪16种不同尺寸的刚性物体运动轨迹，同时通过DVXplorer事件相机（640×480分辨率）和IDS uEye RGB相机（25/100FPS可调）同步采集视觉数据。数据采集过程涵盖了75个动态场景，平均时长16秒，通过人工引入快速平移、旋转及光照变化等干扰因素，模拟了高速机器人作业环境下的复杂视觉挑战。所有数据以ROS bag格式存储，并经过严格的坐标系转换和标定流程，确保事件流与RGB帧的时间同步性和空间对齐精度。

特点

该数据集的核心价值在于其面向高速机器人视觉任务的独特设计理念。相较于现有事件相机数据集，MTevent首次实现了长距离检测（2-7米）、大尺寸物体（最大80×120×144cm）与极端视角的有机结合，包含工业载具、欧式托盘等传统数据集未覆盖的物体类别。数据多样性体现在动态光照（37-980lux）、部分遮挡、多自由度运动（平移速度达2m/s）等真实场景干扰因素的系统性引入。特别值得注意的是，数据集同时提供25FPS和100FPS双模式RGB数据，为研究事件相机在运动模糊场景下的优势提供了直接对比基准。每个场景均配备毫米级精度的6D位姿标注、3D包围框及分割掩码，支持位姿估计、运动分割等多任务研究。

使用方法

研究者可通过HuggingFace平台获取数据集完整包，内含ROS bag原始数据、标定参数及Python处理工具链。使用建议分为三个层级：基础应用可直接加载预生成的10ms事件累积图像与对齐的RGB帧，利用配套的6D位姿真值进行模型训练；进阶研究可解析原始事件流数据，开发异步处理算法；跨模态分析则需注意25FPS与100FPS RGB数据的标注质量差异。评估时推荐采用BOP标准度量体系，重点关注可见表面差异(VSD)等鲁棒性指标。数据集特别适合验证事件相机在高速运动下的动态目标检测能力，研究者可参照论文提供的FoundationPose基准性能（AR 0.22）进行横向对比。对于长距离位姿估计任务，建议结合合成深度图与事件特征进行多模态融合。

背景与挑战

背景概述

MTevent数据集由TU Dortmund和Lamarr Institute for Machine Learning and Artificial Intelligence的研究团队于2025年推出，旨在解决高速移动机器人在动态环境中的感知难题。该数据集专注于6D姿态估计和移动物体检测，通过立体事件相机和RGB相机捕捉75个场景，每个场景平均持续16秒，包含16种独特物体在极端视角、光照变化和遮挡等复杂条件下的数据。MTevent首次将高速运动、长距离感知和真实世界物体交互相结合，为基于事件的机器人视觉研究提供了重要资源。

当前挑战

MTevent数据集面临的挑战主要体现在两个方面：在领域问题层面，高速动态场景下的6D姿态估计存在物体快速移动导致的运动模糊和实时响应难题，RGB相机在25FPS下的平均召回率仅0.22；在构建过程层面，需克服多传感器同步校准、毫米级精度的运动捕捉标注、以及极端光照条件下事件数据与RGB数据的时间对齐等技术难点，同时还要处理非刚性物体（如人体和叉车）的3D边界框标注问题。

常用场景

经典使用场景

MTevent数据集专为高速动态环境下的6D姿态估计和移动物体检测而设计，其经典使用场景包括机器人导航、自动驾驶和工业自动化等领域。在这些场景中，事件相机的高时间分辨率和低延迟特性使其能够有效捕捉快速移动物体的精确姿态和位置，克服了传统RGB相机在高速运动下产生的运动模糊问题。

解决学术问题

MTevent数据集解决了在高速动态环境中进行6D姿态估计和移动物体检测的学术难题。通过提供多传感器数据（包括事件相机和RGB相机）以及精确的运动捕捉系统标注，该数据集为研究者提供了一个可靠的基准，用于开发和验证新型算法，特别是在极端视角、遮挡和复杂光照条件下的性能表现。

衍生相关工作

MTevent数据集的推出催生了一系列相关研究，包括基于事件相机的6D姿态估计算法、动态物体检测方法以及多传感器融合技术。例如，NVIDIA的FoundationPose在该数据集上的应用展示了RGB数据在高速环境中的局限性，进一步推动了事件相机在机器人视觉中的研究和应用。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集