five

achrafothman/aslg_pc12

收藏
Hugging Face2024-01-09 更新2024-06-15 收录
下载链接:
https://hf-mirror.com/datasets/achrafothman/aslg_pc12
下载链接
链接失效反馈
官方服务:
资源简介:
English-ASL Gloss Parallel Corpus 2012 是一个包含英语和美国手语(ASL)注释的平行语料库,主要用于翻译任务。数据集包含87,710个训练样本,数据集的创建是通过众包和专家生成的方式进行的,语言包括英语和美国手语(ASL)。数据集的许可证为CC-BY-NC-4.0,数据集的下载大小为12.77 MB,生成大小为13.50 MB,总磁盘使用量为26.27 MB。

The English-ASL Gloss Parallel Corpus 2012 is a parallel corpus containing English and American Sign Language (ASL) glosses, primarily intended for translation tasks. The dataset includes 87,710 training samples. It was developed through crowdsourcing and expert-generated approaches, supporting two languages: English and American Sign Language (ASL). The dataset is licensed under CC-BY-NC-4.0. Its download size is 12.77 MB, generated size is 13.50 MB, and total disk usage is 26.27 MB.
提供机构:
achrafothman
原始信息汇总

数据集概述

基本信息

  • 数据集名称: English-ASL Gloss Parallel Corpus 2012 (aslg_pc12)
  • 数据集别名: aslg_pc12
  • 数据集版本: default
  • 数据集大小: 10K<n<100K
  • 数据集类型: 翻译数据集
  • 语言:
    • 源语言: 英语 (en)
    • 目标语言: 美国手语词汇 (ase)
  • 许可证: CC BY-NC 4.0
  • 数据集创建者: crowdsourced 和 expert-generated
  • 数据集来源: original

数据集结构

数据字段

  • gloss: 字符串类型,表示美国手语词汇。
  • text: 字符串类型,表示对应的英语文本。

数据分割

  • 训练集: 包含 87710 条数据。

数据示例

json { "gloss": "WRITE STATEMENT AND DESC-ORAL QUESTION TABLE SEE MINUTE ", "text": "written statements and oral questions tabling see minutes " }

数据集下载

  • 下载大小: 7583458 字节
  • 数据集大小: 13475111 字节

引用信息

bibtex @inproceedings{othman2012english, title={English-asl gloss parallel corpus 2012: Aslg-pc12}, author={Othman, Achraf and Jemni, Mohamed}, booktitle={5th Workshop on the Representation and Processing of Sign Languages: Interactions between Corpus and Lexicon LREC}, year={2012} }

搜集汇总
数据集介绍
main_image_url
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作