five

ncslgr/ncslgr

收藏
Hugging Face2024-01-18 更新2024-06-15 收录
下载链接:
https://hf-mirror.com/datasets/ncslgr/ncslgr
下载链接
链接失效反馈
官方服务:
资源简介:
NCSLGR数据集是一个包含美国手语(ASL)视频数据的小型语料库,这些视频数据来自母语手语者,并标注了非手动特征。数据集支持翻译任务,涉及的语言包括美国手语和英语。数据集的结构包括ELAN注释文件路径、视频路径序列以及并行句子序列(包含ASL注释和英语文本)。

The NCSLGR dataset is a small corpus containing American Sign Language (ASL) video data collected from native signers, with non-manual features annotated. This dataset supports translation tasks involving two languages: American Sign Language (ASL) and English. The structure of the dataset includes paths to ELAN annotation files, a sequence of video paths, and a parallel sentence sequence containing ASL annotations and English texts.
提供机构:
ncslgr
原始信息汇总

数据集卡片:NCSLGR

数据集描述

数据集摘要

一个由美国手语(ASL)视频数据组成的小型语料库,由母语者录制,并带有非手动特征的注释。

支持的任务和排行榜

[更多信息需要]

语言

  • 美国手语
  • 英语

数据集结构

数据实例

[更多信息需要]

数据字段

  • eaf: ELAN 注释文件的路径
  • videos: 视频路径的字符串序列
  • sentences: 并行句子的序列
    • gloss: 美国手语的词汇注释
    • text: 英语文本

数据分割

数据集创建

策划理由

[更多信息需要]

源数据

初始数据收集和规范化

[更多信息需要]

源语言生产者是谁?

[更多信息需要]

注释

注释过程

[更多信息需要]

注释者是谁?

[更多信息需要]

个人和敏感信息

[更多信息需要]

使用数据集的注意事项

数据集的社会影响

[更多信息需要]

偏见的讨论

[更多信息需要]

其他已知限制

[更多信息需要]

附加信息

数据集策展人

[更多信息需要]

许可信息

[更多信息需要]

引用信息

bibtex @misc{dataset:databases2007volumes, title={Volumes 2--7}, author={Databases, NCSLGR}, year={2007}, publisher={American Sign Language Linguistic Research Project (Distributed on CD-ROM~…} }

贡献

感谢 @AmitMY 添加此数据集。

搜集汇总
数据集介绍
main_image_url
构建方式
在计算语言学与手语研究领域,NCSLGR数据集以其专业构建方式脱颖而出。该数据集由专家精心生成,涵盖了美国手语(ASL)视频数据及其注释。数据源为原创内容,通过翻译任务实现多语言性,包含ASL与英语的平行句子序列。每个数据实例均提供ELAN注释文件路径、视频路径序列以及句子层面的手语语素标注与对应英文文本,确保了数据的一致性与学术严谨性。
特点
NCSLGR数据集在跨模态语言资源中展现出独特特点。其规模虽小(不足千例),但专注于美国手语的非手动特征标注,为手语语言学与机器翻译研究提供了珍贵素材。数据集以MIT许可证发布,支持开放学术使用。结构上包含完整数据集与注释两个配置,分别整合视频、文本及语素标注,实现了多模态数据的有机统一,为深入探索手语-英语跨语言对齐奠定了坚实基础。
使用方法
针对手语处理与多模态翻译任务,NCSLGR数据集提供了清晰的使用路径。研究者可通过加载数据集配置(如entire_dataset或annotations)访问训练分割,直接获取视频路径、ELAN注释及平行句子序列。数据字段包括gloss(手语语素)与text(英文文本),支持构建手语识别、生成或跨语言对齐模型。鉴于其专业标注特性,该数据集尤其适用于探索非手动特征在手语理解中的角色,推动无障碍通信技术的发展。
背景与挑战
背景概述
美国手语(ASL)作为聋人社区的核心沟通媒介,其计算语言学分析长期面临数据稀缺的挑战。NCSLGR数据集由波士顿大学美国手语语言学研究项目于2007年创建,旨在构建一个包含母语者手语视频、注释及非手动特征标注的小型语料库。该数据集通过专家生成的ASL注释与英语文本的平行对齐,为手语机器翻译、手势识别等跨模态研究提供了珍贵资源,推动了手语语言学与人工智能交叉领域的发展。
当前挑战
手语翻译任务面临跨模态对齐的复杂性挑战,需同时处理视觉动态手势、非手动特征与文本语义的映射。在数据集构建过程中,专家注释的高度专业化要求、视频数据与多层级标注的同步整合,以及小规模样本对模型泛化能力的限制,均为数据集的完善与应用带来显著困难。
常用场景
经典使用场景
在自然语言处理与计算机视觉的交叉领域,NCSLGR数据集作为美国手语(ASL)视频与英语文本对齐的语料库,其经典使用场景聚焦于手语翻译模型的训练与评估。该数据集通过提供由专家标注的非手动特征信息,使得研究者能够构建从手语视频到英语文本的端到端翻译系统,尤其在手语识别与生成任务中,为模型提供了高质量的平行数据支持,促进了手语与口语之间的跨模态语义对齐研究。
衍生相关工作
围绕NCSLGR数据集,学术界衍生了一系列经典研究工作,主要集中在手语识别与翻译的算法创新上。例如,研究者利用该数据集的视频与标注对,开发了基于深度学习的时空特征提取模型,以捕捉手语中的动态手势与非手动信号;同时,结合序列到序列架构,实现了从手语gloss到自然语言文本的生成任务。这些工作不仅拓展了多模态机器翻译的边界,也为后续更大规模手语数据集的构建与标注范式提供了重要参考。
数据集最近研究
最新研究方向
在计算语言学与手语技术领域,NCSLGR数据集作为美国手语视频与英语文本对齐的稀缺资源,正推动手语机器翻译与多模态理解的前沿探索。当前研究聚焦于利用其标注的非手动特征与gloss注释,结合深度学习模型提升手语到文本的跨模态转换精度,尤其在端到端神经网络架构中融合视觉与语言信息。随着无障碍技术需求的增长,该数据集在促进手语识别系统实用化、缩小听觉障碍群体数字鸿沟方面具有关键意义,相关成果正逐步应用于实时翻译设备与教育平台,体现了多模态人工智能在社会包容性发展中的深远影响。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作