five

2M-Flores-ASL

收藏
Hugging Face2024-12-19 更新2024-12-21 收录
下载链接:
https://huggingface.co/datasets/facebook/2M-Flores-ASL
下载链接
链接失效反馈
官方服务:
资源简介:
2M-Flores数据集是2M-Belebele项目的一部分,包含了为Flores200数据集中的所有`dev`和`devtest`句子制作的美国手语(ASL)视频录制。视频文件以多种格式存储,并附有包括句子、注释、手语者信息等在内的元数据。视频录制在单色背景前进行,手语者穿着单色上衣,视频分辨率为1920x1080p,帧率为60帧每秒,以减少手语过程中的运动模糊。该数据集主要用于手语翻译和自动语音识别任务。

The 2M-Flores dataset is part of the 2M-Belebele project, containing American Sign Language (ASL) video recordings made for all `dev` and `devtest` sentences in the Flores200 dataset. The video files are stored in multiple formats and accompanied by metadata including sentences, annotations, signer information, and more. Recordings are conducted in front of a monochrome background, with signers wearing solid-colored tops. The videos have a resolution of 1920x1080p and a frame rate of 60 fps to reduce motion blur during sign language performance. This dataset is primarily used for sign language translation and automatic speech recognition tasks.
提供机构:
AI at Meta
创建时间:
2024-12-18
搜集汇总
数据集介绍
main_image_url
构建方式
2M-Flores-ASL数据集的构建基于2M-Belebele项目,旨在为Flores200数据集中的所有`dev`和`devtest`句子提供美国手语(ASL)的录制视频。构建过程中,专业翻译人员和母语手语者被要求将英文文本翻译成ASL,并为每个句子创建手语词汇(gloss),随后录制这些翻译。为确保词汇格式的一致性,glosses经过专家注释者的质量检查。录制视频时,背景为单色(如白色或绿色),手语者穿着单色上衣(如黑色),以减少视觉偏差。所有视频以1920x1080p分辨率和60帧每秒的速度录制,确保覆盖所有手语空间并减少运动模糊。
使用方法
2M-Flores-ASL数据集适用于多种任务,包括手语翻译和自动语音识别。研究者可以通过提供的视频和元数据进行手语识别、手语翻译模型的训练和评估。数据集的结构清晰,包含句子、gloss、手语者信息等,便于提取和处理。使用时,研究者可以根据需要选择不同的配置和数据文件,如`dev`和`devtest`集,进行模型开发和测试。
背景与挑战
背景概述
2M-Flores-ASL数据集作为2M-Belebele项目的一部分,由Facebook研究团队于2024年创建,旨在为美国手语(ASL)提供高质量的视频记录。该数据集基于Flores200数据集,通过专业手语翻译和母语手语者的合作,将英语句子翻译为ASL,并生成相应的gloss注释。所有视频均在统一的录制条件下完成,确保了数据的一致性和质量。此数据集的推出不仅丰富了手语数据资源,还为手语翻译和自动语音识别领域提供了宝贵的研究材料,推动了多语言和多模态理解技术的发展。
当前挑战
2M-Flores-ASL数据集在构建过程中面临多项挑战。首先,确保手语翻译的准确性和gloss注释的一致性需要依赖专家的严格审核,这增加了数据处理的复杂性。其次,录制过程中的视觉一致性要求,如背景和服装的统一,增加了录制的技术难度。此外,视频的高分辨率和帧率要求确保了数据的清晰度,但也增加了存储和处理的负担。最后,如何有效利用这些视频数据进行模型训练,以提升手语识别和翻译的准确性,是该数据集在应用层面面临的主要挑战。
常用场景
经典使用场景
2M-Flores-ASL数据集在自动语音识别(ASR)和手语翻译领域展现了其经典应用价值。该数据集通过提供高质量的美国手语(ASL)视频记录,支持对手语的自动识别与翻译研究。研究者可以利用这些视频数据训练模型,以实现从手语视频到文本的自动转换,从而推动手语翻译技术的发展。
解决学术问题
2M-Flores-ASL数据集有效解决了手语翻译领域中的多个学术难题。首先,它通过提供标准化的高质量手语视频,解决了手语数据稀缺和质量参差不齐的问题。其次,数据集中的gloss注释帮助研究者更好地理解手语的语义结构,从而提升了手语翻译的准确性和自然度。此外,该数据集还为多模态学习提供了丰富的资源,促进了手语与语音、文本等多模态数据的融合研究。
实际应用
在实际应用中,2M-Flores-ASL数据集为手语翻译系统的设计与优化提供了重要支持。例如,该数据集可用于开发实时手语翻译应用,帮助聋哑人与听觉正常人群进行无障碍交流。此外,它还可应用于教育领域,为手语学习者提供丰富的学习资源和互动平台。通过这些应用,数据集显著提升了手语翻译技术的实用性和社会影响力。
数据集最近研究
最新研究方向
近年来,手语翻译与自动语音识别技术的融合成为人工智能领域的前沿课题。2M-Flores-ASL数据集的推出,为美国手语(ASL)的自动识别与翻译研究提供了丰富的资源。该数据集通过高质量的视频录制,结合专家注释的gloss信息,为手语识别模型提供了精确的训练数据。研究者们正利用这一数据集探索如何通过深度学习技术,提升手语识别的准确性和鲁棒性,特别是在复杂背景和多变手势下的表现。此外,该数据集的开放使用,也促进了跨语言交流技术的进步,为聋哑人群的无障碍沟通提供了新的可能性。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作