davidstap/sranantongo
收藏Hugging Face2024-04-22 更新2024-06-12 收录
下载链接:
https://hf-mirror.com/datasets/davidstap/sranantongo
下载链接
链接失效反馈官方服务:
资源简介:
该数据集是为Sranantongo语言设计的,这是一种基于英语的克里奥尔语,作为苏里南的通用语使用。数据集包含单语数据和Sranantongo-荷兰语的平行数据。单语数据来自SIL,包含一个训练集(6570句)。平行数据分为两部分:一部分来自耶和华见证人,包含训练集(299085句)、验证集(256句)和测试集(256句);另一部分来自Z-Library、Naks Sranan Facebook和荷兰DOJ,包含训练集(3610句)、验证集(256句)和测试集(256句)。
该数据集是为Sranantongo语言设计的,这是一种基于英语的克里奥尔语,作为苏里南的通用语使用。数据集包含单语数据和Sranantongo-荷兰语的平行数据。单语数据来自SIL,包含一个训练集(6570句)。平行数据分为两部分:一部分来自耶和华见证人,包含训练集(299085句)、验证集(256句)和测试集(256句);另一部分来自Z-Library、Naks Sranan Facebook和荷兰DOJ,包含训练集(3610句)、验证集(256句)和测试集(256句)。
提供机构:
davidstap
原始信息汇总
数据集概述
语言和任务
- 语言: Sranantongo, Dutch
- 多语言性: 翻译
- 任务类别: 翻译
数据集内容
- Sranantongo: 英语基础的克里奥尔语,在苏里南作为通用语使用。
数据集分割
srn:- 类型: 单语数据
- 来源: 从SIL抓取
- 分割:
train(6570 sentences)
srn-nl_jw:- 类型: 平行数据(Sranantongo-Dutch)
- 来源: 耶和华见证人
- 分割:
train(299085 sentences),validation(256 sentences),test(256 sentences)
srn-nl_other:- 类型: 平行数据(Sranantongo-Dutch)
- 来源: Z-Library, Naks Sranan Facebook, 荷兰DOJ
- 分割:
train(3610 sentences),validation(256 sentences),test(256 sentences)
使用示例
-
加载单语数据: python dataset = load_dataset("davidstap/sranantongo", "srn", trust_remote_code=True)
-
加载平行JW数据: python dataset = load_dataset("davidstap/sranantongo", "srn-nl_jw", trust_remote_code=True)
-
加载平行其他数据: python dataset = load_dataset("davidstap/sranantongo", "srn-nl_other", trust_remote_code=True)
引用信息
@article{zwennicker2022towards, title={Towards a general purpose machine translation system for Sranantongo}, author={Zwennicker, Just and Stap, David}, journal={arXiv preprint arXiv:2212.06383}, year={2022} }
搜集汇总
数据集介绍

背景与挑战
背景概述
该数据集专注于苏里南的英语克里奥尔语Sranantongo,包含单语数据和平行翻译数据(Sranantongo-荷兰语),用于机器翻译任务。数据集分为三个子集:单语数据(srn)和两个平行数据子集(srn-nl_jw和srn-nl_other),分别来自不同来源,总计超过30万个句子。数据集基于相关研究论文(arXiv:2212.06383)构建,旨在支持Sranantongo的通用机器翻译系统开发。
以上内容由遇见数据集搜集并总结生成



