lukasbraach/bundestag_slr

Name: lukasbraach/bundestag_slr
Creator: lukasbraach
Published: 2024-06-13 15:59:51
License: 暂无描述

Hugging Face2024-06-13 更新2024-06-22 收录

下载链接：

https://hf-mirror.com/datasets/lukasbraach/bundestag_slr

下载链接

链接失效反馈

官方服务：

资源简介：

Bundestag Barrierefrei数据集是一个大规模的数据集，专注于德国联邦议院会议的德国手语（DGS）解释。该数据集旨在支持手语识别领域的研究和开发，特别是在基于变换器的架构中。通过利用这个数据集，研究人员可以推进手语识别领域的发展，并为聋人和听力障碍社区开发强大、包容的通信技术。数据集包含由专业手语翻译员解释的联邦议院会议视频记录，每个视频都附有词汇级注释和相应的德语转录。

提供机构：

lukasbraach

原始信息汇总

Bundestag Barrierefrei Dataset

概述

Bundestag Barrierefrei 数据集是一个大规模数据集，专注于德国议会（德国联邦议院）会议的德国手语（DGS）解释。该数据集旨在支持手语识别领域的研究和开发，特别是在基于transformer的架构方面。通过利用此数据集，研究人员可以推进手语识别领域的发展，并为聋人和听力障碍社区开发强大的包容性通信技术。

数据集详情

语言： 德国手语（DGS）
来源： 德国联邦议院会议

目标

提供Bundestag Barrierefrei数据集的主要目标包括：

支持高级手语识别模型的开发。
促进研究社区内的透明度、可重复性和合作。
提高transformer模型在手语识别等数据稀疏领域的性能。

结构

数据集包括由专业手语翻译员解释的德国联邦议院会议的视频记录。每个视频都附有词汇级别的注释和相应的德语转录。

使用

加载数据集

由于数据集较大，建议在本地克隆并使用流式传输。

bash

确保已安装git-lfs（https://git-lfs.com）

git lfs install

git clone https://huggingface.co/datasets/lukasbraach/bundestag_slr /path/to/bundestag_slr

然后可以使用以下代码片段加载数据集：

python from datasets import load_dataset

dataset = load_dataset("/path/to/bundestag_slr", streaming=True)

预处理

我们首先从输入视频中提取单个帧，逐帧处理以建立进一步分析的基础结构。这一初始步骤为后续的检测和裁剪操作奠定了基础：使用MediaPipe的面部检测系统，我们在每个提取的帧中识别面部。这种方法提供了每个检测到的面部的边界框，使我们能够确定包含上肢的正方形区域，这是手语手势的主要区域。为了避免议会成员的误报，我们将面部检测限制在视频帧的右侧25分之一。这使我们能够以非常接近RWTH Phoenix Weather 2014数据集原始预处理格式的方式提取手语翻译员。

为了确保检测到的边界框之间的平滑过渡，我们使用缓冲区应用移动平均技术。该缓冲区存储最近的边界框坐标并计算移动平均值，以平滑手语者的运动抖动。这一步骤有助于保持对检测到的面部和上肢的稳定视角，从而实现更一致的裁剪和帧对齐。在平滑的边界框就位后，我们计算每个帧的正方形区域的坐标以进行裁剪。然后调整此正方形区域的大小，以确保它包含上肢而不超出原始帧边界。通过关注此区域，我们减少了模型输入中的不必要背景噪声，这应该会提高模型的收敛速度。

我们将裁剪的区域调整为标准尺寸，通常为224x224像素，以满足机器学习模型的输入要求。这一调整步骤提供了数据集一致的输入格式。目标是创建一个统一的、可有效用于模型预训练的数据集。通过实施此预处理流程，我们确保数据集达到必要的质量标准，为训练机器学习模型和评估其性能提供了坚实的基础。完全预处理并使用MP4编解码器编码的数据集大小为84GB。

备注

数据集附有原始会议中口语的高质量字幕。为了完整性，这些字幕包含在共享在HuggingFace Hub的数据集中，但有一些备注。通过外行的眼睛进行定性检查，很明显字幕文本的时间戳与手语表达不匹配，因为多次出现没有相应手语表达的字幕文本。

手语翻译员似乎需要一到两秒的时间来翻译口语。作为一个务实的解决方案，为了增加字幕文本在相关手语表达中表示的机会，对于所有生成的表达，额外添加了大约1.5秒的源视频帧。这种延迟是基于良好的直觉，而不是经验支持的。进一步的研究人员受邀跟进这些限制。

许可证

该数据集根据Bundestag Barrierefrei手语解释的许可证提供：英文版德文版（具有法律约束力）

请注意，我与德国联邦议院没有任何关联，并且不提供任何保证。我的唯一目的是加速手语识别研究，并分享作为我的硕士论文一部分开发的内容。

搜集汇总

数据集介绍

构建方式

Bundestag Barrierefrei数据集的构建基于德国联邦议会（Bundestag）会议的德国手语（DGS）翻译视频。该数据集通过专业手语翻译员对议会会议的实时翻译，结合视频录制与gloss级注释，形成了丰富的手语识别训练资源。数据集的预处理步骤包括从视频中提取帧，使用MediaPipe进行面部检测以确定手语翻译员的上半身区域，并通过移动平均技术平滑边界框以确保稳定的裁剪。最终，裁剪后的区域被调整为标准尺寸，以适应机器学习模型的输入要求。

特点

Bundestag Barrierefrei数据集的主要特点在于其高质量的手语翻译视频和详细的gloss级注释，这些注释与德国议会会议的原始德语转录相辅相成。数据集的独特之处在于其专注于手语识别领域，特别是为基于transformer的架构提供了丰富的训练数据。此外，数据集还包括了原始会议的高质量字幕，尽管这些字幕的时间戳与手语翻译不完全匹配，但为研究者提供了额外的参考信息。

使用方法

使用Bundestag Barrierefrei数据集时，建议通过本地克隆和流式加载的方式处理其大规模数据。首先，确保安装了git-lfs，然后通过git clone命令下载数据集。在Python中，可以使用HuggingFace的datasets库加载数据集，并设置streaming=True以实现流式处理。数据集的预处理部分已经完成了视频帧的提取、面部检测和裁剪，研究者可以直接利用这些预处理后的数据进行模型训练和评估。

背景与挑战

背景概述

Bundestag Barrierefrei数据集是一个大规模的德国手语（DGS）解释德国联邦议会会议的数据集，旨在支持手语识别领域的研究和开发，特别是基于transformer架构的模型。该数据集由专业手语翻译人员对联邦议会会议的视频进行解释，并附有gloss级别的注释和相应的德语转录。其主要目标是推动手语识别模型的开发，促进研究社区内的透明度、可重复性和协作，并提高在数据稀疏领域（如手语识别）中transformer模型的性能。该数据集的创建为聋人和听力障碍社区的包容性通信技术的发展提供了坚实的基础。

当前挑战

Bundestag Barrierefrei数据集在构建过程中面临多个挑战。首先，视频数据的处理和预处理是一个复杂的过程，包括从视频中提取帧、面部检测、裁剪和标准化尺寸等步骤，以确保数据的一致性和质量。其次，手语翻译与原始口语字幕的时间戳不匹配，导致字幕文本与手语表达之间存在延迟，这需要通过添加额外帧来调整，但这一调整缺乏实证支持。此外，数据集的规模和复杂性要求高效的存储和加载策略，如使用流式加载技术。这些挑战不仅涉及技术实现，还包括对手语识别领域特定问题的理解和解决，以确保模型的准确性和实用性。

常用场景

经典使用场景

Bundestag Barrierefrei数据集的经典使用场景主要集中在德国手语（DGS）识别领域，尤其是在基于Transformer架构的模型训练中。该数据集通过提供德国联邦议会会议的手语解释视频及其对应的注释，为研究人员提供了丰富的训练资源。这些视频不仅包含手语的gloss级注释，还附带了德语的文字记录，使得模型能够在多模态数据上进行训练，从而提升手语识别的准确性和鲁棒性。

解决学术问题

该数据集解决了手语识别领域中数据稀缺的问题，尤其是在德国手语这一特定语境下。通过提供大规模的手语解释视频和高质量的注释，研究人员能够训练出更精确的手语识别模型，推动了手语识别技术的进步。此外，该数据集还促进了研究社区内的透明度和可重复性，为手语识别领域的学术研究提供了坚实的基础。

衍生相关工作

基于Bundestag Barrierefrei数据集，许多相关工作得以展开，尤其是在手语识别和多模态学习领域。例如，研究人员利用该数据集开发了新的手语识别模型，提升了模型的准确性和鲁棒性。此外，该数据集还激发了对手语数据预处理和标注技术的研究，推动了手语数据集的标准化和质量提升。这些衍生工作不仅丰富了手语识别领域的研究内容，还为未来的研究提供了宝贵的经验和数据支持。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集