lukasbraach/bundestag_slr
收藏Bundestag Barrierefrei Dataset
概述
Bundestag Barrierefrei 数据集是一个大规模数据集,专注于德国议会(德国联邦议院)会议的德国手语(DGS)解释。该数据集旨在支持手语识别领域的研究和开发,特别是在基于transformer的架构方面。通过利用此数据集,研究人员可以推进手语识别领域的发展,并为聋人和听力障碍社区开发强大的包容性通信技术。
数据集详情
- 语言: 德国手语(DGS)
- 来源: 德国联邦议院会议
目标
提供Bundestag Barrierefrei数据集的主要目标包括:
- 支持高级手语识别模型的开发。
- 促进研究社区内的透明度、可重复性和合作。
- 提高transformer模型在手语识别等数据稀疏领域的性能。
结构
数据集包括由专业手语翻译员解释的德国联邦议院会议的视频记录。每个视频都附有词汇级别的注释和相应的德语转录。
使用
加载数据集
由于数据集较大,建议在本地克隆并使用流式传输。
bash
确保已安装git-lfs(https://git-lfs.com)
git lfs install
git clone https://huggingface.co/datasets/lukasbraach/bundestag_slr /path/to/bundestag_slr
然后可以使用以下代码片段加载数据集:
python from datasets import load_dataset
dataset = load_dataset("/path/to/bundestag_slr", streaming=True)
预处理
我们首先从输入视频中提取单个帧,逐帧处理以建立进一步分析的基础结构。这一初始步骤为后续的检测和裁剪操作奠定了基础:使用MediaPipe的面部检测系统,我们在每个提取的帧中识别面部。这种方法提供了每个检测到的面部的边界框,使我们能够确定包含上肢的正方形区域,这是手语手势的主要区域。为了避免议会成员的误报,我们将面部检测限制在视频帧的右侧25分之一。这使我们能够以非常接近RWTH Phoenix Weather 2014数据集原始预处理格式的方式提取手语翻译员。
为了确保检测到的边界框之间的平滑过渡,我们使用缓冲区应用移动平均技术。该缓冲区存储最近的边界框坐标并计算移动平均值,以平滑手语者的运动抖动。这一步骤有助于保持对检测到的面部和上肢的稳定视角,从而实现更一致的裁剪和帧对齐。在平滑的边界框就位后,我们计算每个帧的正方形区域的坐标以进行裁剪。然后调整此正方形区域的大小,以确保它包含上肢而不超出原始帧边界。通过关注此区域,我们减少了模型输入中的不必要背景噪声,这应该会提高模型的收敛速度。
我们将裁剪的区域调整为标准尺寸,通常为224x224像素,以满足机器学习模型的输入要求。这一调整步骤提供了数据集一致的输入格式。目标是创建一个统一的、可有效用于模型预训练的数据集。通过实施此预处理流程,我们确保数据集达到必要的质量标准,为训练机器学习模型和评估其性能提供了坚实的基础。完全预处理并使用MP4编解码器编码的数据集大小为84GB。
备注
数据集附有原始会议中口语的高质量字幕。为了完整性,这些字幕包含在共享在HuggingFace Hub的数据集中,但有一些备注。通过外行的眼睛进行定性检查,很明显字幕文本的时间戳与手语表达不匹配,因为多次出现没有相应手语表达的字幕文本。
手语翻译员似乎需要一到两秒的时间来翻译口语。作为一个务实的解决方案,为了增加字幕文本在相关手语表达中表示的机会,对于所有生成的表达,额外添加了大约1.5秒的源视频帧。这种延迟是基于良好的直觉,而不是经验支持的。进一步的研究人员受邀跟进这些限制。
许可证
该数据集根据Bundestag Barrierefrei手语解释的许可证提供: 英文版 德文版(具有法律约束力)
请注意,我与德国联邦议院没有任何关联,并且不提供任何保证。我的唯一目的是加速手语识别研究,并分享作为我的硕士论文一部分开发的内容。




