2M-Flores-ASL

Name: 2M-Flores-ASL
Creator: AI at Meta
Published: 2024-12-19 18:23:35
License: 暂无描述

Hugging Face2024-12-19 更新2024-12-21 收录

下载链接：

https://huggingface.co/datasets/facebook/2M-Flores-ASL

下载链接

链接失效反馈

官方服务：

资源简介：

2M-Flores数据集是2M-Belebele项目的一部分，包含了为Flores200数据集中的所有`dev`和`devtest`句子制作的美国手语（ASL）视频录制。视频文件以多种格式存储，并附有包括句子、注释、手语者信息等在内的元数据。视频录制在单色背景前进行，手语者穿着单色上衣，视频分辨率为1920x1080p，帧率为60帧每秒，以减少手语过程中的运动模糊。该数据集主要用于手语翻译和自动语音识别任务。

The 2M-Flores dataset is part of the 2M-Belebele project, containing American Sign Language (ASL) video recordings made for all `dev` and `devtest` sentences in the Flores200 dataset. The video files are stored in multiple formats and accompanied by metadata including sentences, annotations, signer information, and more. Recordings are conducted in front of a monochrome background, with signers wearing solid-colored tops. The videos have a resolution of 1920x1080p and a frame rate of 60 fps to reduce motion blur during sign language performance. This dataset is primarily used for sign language translation and automatic speech recognition tasks.

提供机构：

AI at Meta

创建时间：

2024-12-18

搜集汇总

数据集介绍

构建方式

2M-Flores-ASL数据集的构建基于2M-Belebele项目，旨在为Flores200数据集中的所有`dev`和`devtest`句子提供美国手语（ASL）的录制视频。构建过程中，专业翻译人员和母语手语者被要求将英文文本翻译成ASL，并为每个句子创建手语词汇（gloss），随后录制这些翻译。为确保词汇格式的一致性，glosses经过专家注释者的质量检查。录制视频时，背景为单色（如白色或绿色），手语者穿着单色上衣（如黑色），以减少视觉偏差。所有视频以1920x1080p分辨率和60帧每秒的速度录制，确保覆盖所有手语空间并减少运动模糊。

使用方法

2M-Flores-ASL数据集适用于多种任务，包括手语翻译和自动语音识别。研究者可以通过提供的视频和元数据进行手语识别、手语翻译模型的训练和评估。数据集的结构清晰，包含句子、gloss、手语者信息等，便于提取和处理。使用时，研究者可以根据需要选择不同的配置和数据文件，如`dev`和`devtest`集，进行模型开发和测试。

背景与挑战

背景概述

2M-Flores-ASL数据集作为2M-Belebele项目的一部分，由Facebook研究团队于2024年创建，旨在为美国手语（ASL）提供高质量的视频记录。该数据集基于Flores200数据集，通过专业手语翻译和母语手语者的合作，将英语句子翻译为ASL，并生成相应的gloss注释。所有视频均在统一的录制条件下完成，确保了数据的一致性和质量。此数据集的推出不仅丰富了手语数据资源，还为手语翻译和自动语音识别领域提供了宝贵的研究材料，推动了多语言和多模态理解技术的发展。

当前挑战

2M-Flores-ASL数据集在构建过程中面临多项挑战。首先，确保手语翻译的准确性和gloss注释的一致性需要依赖专家的严格审核，这增加了数据处理的复杂性。其次，录制过程中的视觉一致性要求，如背景和服装的统一，增加了录制的技术难度。此外，视频的高分辨率和帧率要求确保了数据的清晰度，但也增加了存储和处理的负担。最后，如何有效利用这些视频数据进行模型训练，以提升手语识别和翻译的准确性，是该数据集在应用层面面临的主要挑战。

常用场景

经典使用场景

2M-Flores-ASL数据集在自动语音识别（ASR）和手语翻译领域展现了其经典应用价值。该数据集通过提供高质量的美国手语（ASL）视频记录，支持对手语的自动识别与翻译研究。研究者可以利用这些视频数据训练模型，以实现从手语视频到文本的自动转换，从而推动手语翻译技术的发展。

解决学术问题

2M-Flores-ASL数据集有效解决了手语翻译领域中的多个学术难题。首先，它通过提供标准化的高质量手语视频，解决了手语数据稀缺和质量参差不齐的问题。其次，数据集中的gloss注释帮助研究者更好地理解手语的语义结构，从而提升了手语翻译的准确性和自然度。此外，该数据集还为多模态学习提供了丰富的资源，促进了手语与语音、文本等多模态数据的融合研究。

实际应用

在实际应用中，2M-Flores-ASL数据集为手语翻译系统的设计与优化提供了重要支持。例如，该数据集可用于开发实时手语翻译应用，帮助聋哑人与听觉正常人群进行无障碍交流。此外，它还可应用于教育领域，为手语学习者提供丰富的学习资源和互动平台。通过这些应用，数据集显著提升了手语翻译技术的实用性和社会影响力。

数据集最近研究