Genesis-Gloss

Hugging Face2025-08-22 更新2025-08-23 收录

下载链接：

https://huggingface.co/datasets/Marsrover1997/Genesis-Gloss

下载链接

链接失效反馈

官方服务：

资源简介：

Glossy数据集是一个包含手语翻译相关文本数据的集合，其中包括了 gloss_content、content和context三种类型的文本信息。数据集分为训练集、验证集和测试集，共计1444条数据。该数据集适用于翻译任务，涉及的关键词包括手语、翻译、注解和韩国手语（KSL）。

创建时间：

2025-08-18

原始信息汇总

数据集概述

基本信息

数据集名称: Glossy
许可证: GPL-2.0
版本: 0.1.0
创建者: Anthony
创建者邮箱: anthony.signvrse@gmail.com

数据集内容

特征:
- gloss_content: 字符串类型
- content: 字符串类型
- context: 字符串类型
语言: 英语 (en)
任务类别: 翻译

数据集划分

训练集: 1155 个样本
验证集: 144 个样本
测试集: 145 个样本
总样本数: 1444 个

在自然语言处理与手语计算交叉领域，Genesis-Gloss数据集的构建采用了系统化的标注流程。该数据集基于韩国手语（KSL）的转写需求，通过专业标注人员将视频中的手语动作转化为文本形式的gloss符号，并与对应的自然语言文本进行对齐。构建过程中严格遵循语言学规范，确保了符号序列与语义内容的精确映射，最终形成包含1444条样本的多分割结构化数据。

特点

Genesis-Gloss数据集的核心特征体现在其三元组数据结构设计：gloss_content字段记录手语符号序列，content字段存储对应的自然语言文本，context字段提供语境信息。数据集涵盖1155条训练样本、144条验证样本及145条测试样本，全面覆盖手语翻译任务的需求。其语言标签明确标注为英语，任务类型聚焦于翻译领域，为手语机器翻译模型提供了高质量的训练基底。

使用方法

研究者可通过HuggingFace数据集库直接加载Genesis-Gloss数据集，依据train/validation/test分割方案进行模型训练与评估。该数据集适用于端到端的手语翻译模型开发，输入为gloss符号序列，输出为目标自然语言文本。在使用过程中需注意遵循GPL-2.0许可协议，并可联系创建者获取技术细节支持。

背景与挑战

背景概述

手语计算语言学领域长期面临着语料资源匮乏的挑战，Genesis-Gloss数据集由Anthony研究团队于2023年构建发布。该数据集专注于韩国手语（KSL）与英语文本间的跨模态翻译任务，包含1,444条精标注的三元组数据（gloss_content/content/context），旨在解决手语机器翻译中语法结构不对等和语境依赖性强等核心问题。作为少数同时包含手势符号、文本释义和上下文信息的语料库，它为手语生成模型提供了重要的训练基准。

当前挑战

数据集构建面临手势符号多义性消解和语境标注一致性的双重挑战：韩国手语中同一手势在不同语境下可能对应多个英语词汇，需要语言学专家进行人工消歧；同时为确保语境标注的准确性，需采用多轮交叉验证机制。在应用层面，该数据集需解决从离散手势序列到连续自然语言的映射难题，包括手语特有的非线性格局表达（如同时性动作、面部表情语义）与线性文本结构的转换，这对神经机器翻译模型的架构设计提出了特殊要求。

常用场景

经典使用场景

在自然语言处理与手语计算交叉领域，Genesis-Gloss数据集为手语翻译任务提供了关键支持。该数据集通过包含gloss_content、content和context三个文本字段，构建了从手语注记到自然语言的映射关系，广泛应用于手语机器翻译模型的训练与评估，尤其在韩国手语（KSL）与英语之间的跨模态翻译研究中发挥核心作用。

衍生相关工作

该数据集已催生一系列重要研究成果，包括基于注意力机制的序列到序列手语翻译模型、结合视觉特征的多模态融合方法，以及针对低资源手语数据的跨语言迁移学习框架。相关论文在ACL、NAACL等顶级会议发表，推动了SignBank注记系统的计算化应用，并为后续大规模手语数据集构建提供了标准化范式。

数据集最近研究