Signing in the Wild

github2021-06-25 更新2024-05-31 收录

下载链接：

https://github.com/mark-borg/Signing-in-the-Wild-dataset

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集是作为研究项目的一部分创建的，旨在通过循环神经网络进行手语视频检测。数据集包含1120个经过筛选的视频，用于分析手语行为，每个视频帧都有详细的标注信息，包括手语、说话和其他非手语非说话行为。

This dataset was created as part of a research project aimed at sign language video detection using recurrent neural networks. The dataset comprises 1,120 curated videos for analyzing sign language behaviors, with each video frame meticulously annotated to include sign language, speech, and other non-sign, non-speech actions.

创建时间：

2018-10-24

原始信息汇总

Signing-in-the-Wild-dataset 概述

数据集内容

Signing_in_the_Wild_video_urls.txt: 包含经过筛选的1120个视频URL，这些视频属于我们关注的3个类别，是构成此数据集的主要部分。
groundtruth.txt: 包含手动标注的注释信息。每个视频帧的注释以空格分隔，包括视频ID、帧号和标签。标签包括：
- S = signing
- P = speaking
- n = other (非手语，非说话)
- ? = 未标注帧

数据集使用

视频下载: 数据集仅提供视频URL，原始视频下载后将占用53.4GB的磁盘空间。下载视频的代码可在 https://github.com/mark-borg/sign-language-detection 获取。
注意事项:
- candidate_video_urls.txt: 包含未筛选的YouTube视频URL，可能包含不正确、不适当或低质量内容，不应使用。

联系方式

如有疑问，请联系 mborg2005@gmail.com

搜集汇总

数据集介绍

构建方式

在自然场景下进行手语视频检测的研究背景下，'Signing in the Wild'数据集通过YouTube平台上的关键词搜索构建而成。研究团队首先通过关键词如'手语'、'ASL'、'BSL'等获取了大量视频URL，随后对这些视频进行了人工筛选，最终确定了1120个符合研究需求的视频。这些视频涵盖了手语、口语及其他非手语非口语内容，确保了数据集的多样性和代表性。

特点

该数据集的一个显著特点是其视频内容均来源于真实的自然场景，而非实验室环境，这使得数据集更具现实意义。数据集包含了手语、口语及其他非手语非口语内容的视频，且每帧视频都经过人工标注，标注内容包括视频ID、帧号及标签（手语、口语、其他或未标注）。这种精细的标注方式为手语检测研究提供了高质量的基准数据。

使用方法

使用该数据集时，研究人员可通过提供的代码从YouTube下载视频，并利用包含人工标注的groundtruth.txt文件进行模型训练与验证。数据集的使用方法简单明了，用户只需按照README文件中的指示操作即可。此外，数据集还提供了未筛选的视频URL列表，供未来研究扩展使用，但当前版本建议仅使用已筛选的视频列表。

背景与挑战

背景概述

Signing in the Wild数据集是由研究人员Mark Borg等人于2015年创建，旨在通过循环神经网络（RNN）技术解决手语视频检测问题。该数据集包含1120个经过筛选的YouTube视频，涵盖了手语（Signing）、口语（Speaking）以及其他非手语和非口语内容（Other）三类标签。这些视频通过关键词搜索获取，并经过人工标注，每帧以5Hz的频率进行采样和标记。该数据集为手语识别领域的研究提供了宝贵的资源，推动了基于视频的手语检测技术的发展，尤其在自然场景下的手语识别方面具有重要影响力。

当前挑战

Signing in the Wild数据集在构建和应用过程中面临多重挑战。首先，手语视频检测本身具有高度复杂性，手语动作的多样性和背景干扰使得模型难以准确区分手语与非手语内容。其次，数据集的构建依赖于YouTube视频，原始视频质量参差不齐，且包含大量无关或低质量内容，需耗费大量人力进行筛选和标注。此外，视频数据的高存储需求（53.4GB）和计算成本也对研究者的硬件资源提出了较高要求。这些挑战不仅反映了手语识别领域的难点，也为未来数据集的优化和模型改进指明了方向。

常用场景

经典使用场景

在自然环境中进行手语视频检测的研究中，'Signing in the Wild'数据集提供了一个丰富的资源库。该数据集包含了1120个经过筛选的YouTube视频，涵盖了手语、口语以及其他非语言活动，为研究者提供了一个真实且多样化的研究平台。通过这一数据集，研究者能够训练和测试基于循环神经网络的模型，以识别和分类视频中的手语行为。

解决学术问题

该数据集主要解决了手语识别领域中的一个关键问题，即在非受控环境下对手语进行准确检测和分类。传统的实验室环境往往无法捕捉到手语在实际使用中的多样性和复杂性，而'Signing in the Wild'数据集通过提供真实世界中的视频数据，使得研究者能够开发出更具鲁棒性的手语识别算法，从而推动了手语识别技术的实际应用。

衍生相关工作

基于'Signing in the Wild'数据集，研究者们已经开展了多项相关工作。例如，一些研究利用该数据集开发了基于深度学习的手语识别模型，显著提高了识别精度。此外，该数据集还被用于研究手语与口语的同步识别问题，推动了多模态人机交互技术的发展。这些工作不仅丰富了手语识别领域的研究成果，也为未来的技术应用奠定了坚实的基础。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集