THU-READ

Name: THU-READ
Creator: 诺基亚贝尔实验室
Published: 2021-06-09 18:10:02
License: 暂无描述

arXiv2021-06-09 更新2024-08-06 收录

下载链接：

http://arxiv.org/abs/2106.04957v1

下载链接

链接失效反馈

官方服务：

资源简介：

THU-READ数据集是由清华大学开发，专注于识别与手部动作相关的日常行为。该数据集包含40种不同动作，由8名参与者重复3次，总计960个RGB-D视频。本研究从中选取了2124张代表性图像进行像素级标注，用于支持实时语义分割网络的研究，特别是在混合现实应用中，以增强虚拟现实体验的真实感。数据集的创建涉及使用AMT平台进行手动标注，确保了标注的准确性和质量。该数据集的应用领域主要集中在提升混合现实中用户与真实物体交互的自然性和效率。

THU-READ Dataset is developed by Tsinghua University, focusing on recognizing daily behaviors related to hand movements. This dataset contains 40 distinct actions, performed 3 times by 8 participants, totaling 960 RGB-D videos. In this study, 2124 representative images were selected from it for pixel-level annotation to support research on real-time semantic segmentation networks, particularly in mixed reality applications to enhance the realism of virtual reality experiences. The dataset's creation involved manual annotation using the AMT platform, which ensured the accuracy and quality of the annotations. The primary application areas of this dataset center on improving the naturality and efficiency of user interaction with real objects in mixed reality.

提供机构：

诺基亚贝尔实验室

创建时间：

2021-06-09

搜集汇总

数据集介绍

构建方式

在混合现实应用日益兴起的背景下，THU-READ数据集的构建聚焦于填补第一人称视角下物体像素级标注数据的空白。研究团队从清华大学采集的RGB-D THU-READ动作识别数据集中，精心选取了2124幅代表性图像作为子集。通过亚马逊众包平台，采用语义分割模板中的多边形标注工具，对图像中的人体部位及与之交互的物体进行了精细的边界勾勒与类别标注。为确保标注质量，标注者需满足特定资质要求，且每条标注需包含至少30个边界点，最终由研究者进行严格的质量审核与反馈修正，从而生成了包含背景、人体及30类物体的高质量像素级语义标签。

特点

该数据集的核心特点在于其专注于第一人称视角下的物体语义分割，并提供了三种不同粒度的标注版本以满足多样化的研究需求。THU-READ Original版本包含背景、人体及30个精细物体类别，共计32类，为细粒度识别提供了基础。THU-READ objects as one版本则将所有物体合并为单一类别，与背景、人体共同构成3类标签，有助于研究物体整体分割性能。THU-READ same label版本进一步将人体与物体合并，形成背景与前景两类，简化了分割任务。这种多层次的结构设计，使得数据集能够灵活支持从物体分类到前景分割等不同复杂度的研究场景，并已通过实时分割网络Thundernet进行了基准性能评估。

使用方法

为推进混合现实中的实时交互应用，该数据集主要用于训练与评估实时语义分割模型。研究者可依据具体任务选择不同的标注版本进行模型训练，例如，使用THU-READ Original进行细粒度物体分割，或使用简化版本研究手部交互区域的前景分割。在实验协议上，建议遵循原文的划分方式，将八名受试者中一人的数据作为验证集，其余用于训练，以确保人员独立性。评估指标推荐使用交并比（IoU）。数据集可直接用于微调预训练模型（如基于ImageNet的ResNet-18），通过调整学习率、权重衰减等超参数优化模型在自我中心视角下的分割性能，并为开发端到端的混合现实系统提供关键的视觉感知模块。

背景与挑战

背景概述

随着混合现实技术的蓬勃发展，以第一人称视角为核心的自我中心感知研究逐渐成为计算机视觉领域的热点。在此背景下，诺基亚贝尔实验室的研究团队于2021年基于清华大学开发的THU-READ数据集，构建了一个专注于自我中心物体分割的像素级标注子集。该数据集源自THU-READ原始RGB-D数据，旨在解决混合现实应用中真实物体与虚拟环境无缝融合的核心难题。通过精细标注2124幅图像中的30类交互物体及人体部位，该工作不仅填补了自我中心物体分割领域标注数据的空白，也为实时语义分割网络的性能评估提供了重要基准，推动了沉浸式交互体验的技术演进。

当前挑战

该数据集致力于应对自我中心物体分割这一特定任务的挑战，其核心在于从复杂多变的第一人称视角中，精准识别并分割出用户手中交互的各类物体，这对模型的鲁棒性与实时性提出了极高要求。在构建过程中，研究团队面临多重困难：首先，从现有RGB-D数据中筛选并标注像素级语义信息是一项繁重任务，需通过亚马逊众包平台结合严格的质量控制流程来完成；其次，自我中心视角下物体常呈现遮挡、尺度多变及光照条件复杂等特点，导致标注一致性难以保证；此外，为平衡模型精度与速度以适应混合现实应用，还需设计不同的真值版本以评估类别数量对分割性能的影响，这进一步增加了数据集构建与验证的复杂性。

常用场景

经典使用场景

在混合现实（MR）与增强现实（AR）领域，第一人称视角的物体感知是实现沉浸式交互的关键技术。THU-READ数据集通过提供精细的像素级语义标注，为实时自我中心物体分割研究奠定了重要基础。该数据集最经典的使用场景在于训练和评估深度学习模型，特别是针对实时语义分割网络如Thundernet，使其能够准确识别和分割用户视野中与手部交互的物体，例如书籍、杯子、手机等日常物品，从而为MR应用中的虚拟与现实融合提供技术支持。

衍生相关工作

基于THU-READ数据集，研究者们开展了一系列经典工作，主要集中在实时语义分割网络的优化与扩展。例如，Thundernet网络被适配用于处理自我中心图像，并在该数据集上进行了基准测试，展示了其在实时分割中的潜力。此外，相关工作探索了深度信息作为额外输入源的可行性，以提升分割精度。这些衍生研究不仅推动了自我中心分割算法的进步，还为多模态融合、小物体分割等方向提供了新的思路，进一步丰富了计算机视觉在MR领域的应用生态。

数据集最近研究