ncslgr/ncslgr

Name: ncslgr/ncslgr
Creator: ncslgr
Published: 2024-01-18 11:10:15
License: 暂无描述

Hugging Face2024-01-18 更新2024-06-15 收录

下载链接：

https://hf-mirror.com/datasets/ncslgr/ncslgr

下载链接

链接失效反馈

官方服务：

资源简介：

NCSLGR数据集是一个包含美国手语（ASL）视频数据的小型语料库，这些视频数据来自母语手语者，并标注了非手动特征。数据集支持翻译任务，涉及的语言包括美国手语和英语。数据集的结构包括ELAN注释文件路径、视频路径序列以及并行句子序列（包含ASL注释和英语文本）。

The NCSLGR dataset is a small corpus containing American Sign Language (ASL) video data collected from native signers, with non-manual features annotated. This dataset supports translation tasks involving two languages: American Sign Language (ASL) and English. The structure of the dataset includes paths to ELAN annotation files, a sequence of video paths, and a parallel sentence sequence containing ASL annotations and English texts.

提供机构：

ncslgr

原始信息汇总

数据集卡片：NCSLGR

数据集描述

数据集摘要

一个由美国手语（ASL）视频数据组成的小型语料库，由母语者录制，并带有非手动特征的注释。

支持的任务和排行榜

[更多信息需要]

语言

美国手语
英语

数据集结构

数据实例

[更多信息需要]

数据字段

eaf: ELAN 注释文件的路径
videos: 视频路径的字符串序列
sentences: 并行句子的序列
- gloss: 美国手语的词汇注释
- text: 英语文本

数据分割

无

数据集创建

策划理由

[更多信息需要]

源数据

初始数据收集和规范化

[更多信息需要]

源语言生产者是谁？

[更多信息需要]

注释

注释过程

[更多信息需要]

注释者是谁？

[更多信息需要]

个人和敏感信息

[更多信息需要]

使用数据集的注意事项

数据集的社会影响

[更多信息需要]

偏见的讨论

[更多信息需要]

其他已知限制

[更多信息需要]

附加信息

数据集策展人

[更多信息需要]

许可信息

[更多信息需要]

引用信息

bibtex @misc{dataset:databases2007volumes, title={Volumes 2--7}, author={Databases, NCSLGR}, year={2007}, publisher={American Sign Language Linguistic Research Project (Distributed on CD-ROM~…} }

贡献

感谢 @AmitMY 添加此数据集。

搜集汇总

数据集介绍

构建方式

在计算语言学与手语研究领域，NCSLGR数据集以其专业构建方式脱颖而出。该数据集由专家精心生成，涵盖了美国手语（ASL）视频数据及其注释。数据源为原创内容，通过翻译任务实现多语言性，包含ASL与英语的平行句子序列。每个数据实例均提供ELAN注释文件路径、视频路径序列以及句子层面的手语语素标注与对应英文文本，确保了数据的一致性与学术严谨性。

特点

NCSLGR数据集在跨模态语言资源中展现出独特特点。其规模虽小（不足千例），但专注于美国手语的非手动特征标注，为手语语言学与机器翻译研究提供了珍贵素材。数据集以MIT许可证发布，支持开放学术使用。结构上包含完整数据集与注释两个配置，分别整合视频、文本及语素标注，实现了多模态数据的有机统一，为深入探索手语-英语跨语言对齐奠定了坚实基础。

使用方法

针对手语处理与多模态翻译任务，NCSLGR数据集提供了清晰的使用路径。研究者可通过加载数据集配置（如entire_dataset或annotations）访问训练分割，直接获取视频路径、ELAN注释及平行句子序列。数据字段包括gloss（手语语素）与text（英文文本），支持构建手语识别、生成或跨语言对齐模型。鉴于其专业标注特性，该数据集尤其适用于探索非手动特征在手语理解中的角色，推动无障碍通信技术的发展。

背景与挑战

背景概述

美国手语（ASL）作为聋人社区的核心沟通媒介，其计算语言学分析长期面临数据稀缺的挑战。NCSLGR数据集由波士顿大学美国手语语言学研究项目于2007年创建，旨在构建一个包含母语者手语视频、注释及非手动特征标注的小型语料库。该数据集通过专家生成的ASL注释与英语文本的平行对齐，为手语机器翻译、手势识别等跨模态研究提供了珍贵资源，推动了手语语言学与人工智能交叉领域的发展。

当前挑战

手语翻译任务面临跨模态对齐的复杂性挑战，需同时处理视觉动态手势、非手动特征与文本语义的映射。在数据集构建过程中，专家注释的高度专业化要求、视频数据与多层级标注的同步整合，以及小规模样本对模型泛化能力的限制，均为数据集的完善与应用带来显著困难。

常用场景

经典使用场景

在自然语言处理与计算机视觉的交叉领域，NCSLGR数据集作为美国手语（ASL）视频与英语文本对齐的语料库，其经典使用场景聚焦于手语翻译模型的训练与评估。该数据集通过提供由专家标注的非手动特征信息，使得研究者能够构建从手语视频到英语文本的端到端翻译系统，尤其在手语识别与生成任务中，为模型提供了高质量的平行数据支持，促进了手语与口语之间的跨模态语义对齐研究。

衍生相关工作

围绕NCSLGR数据集，学术界衍生了一系列经典研究工作，主要集中在手语识别与翻译的算法创新上。例如，研究者利用该数据集的视频与标注对，开发了基于深度学习的时空特征提取模型，以捕捉手语中的动态手势与非手动信号；同时，结合序列到序列架构，实现了从手语gloss到自然语言文本的生成任务。这些工作不仅拓展了多模态机器翻译的边界，也为后续更大规模手语数据集的构建与标注范式提供了重要参考。

数据集最近研究