five

davidstap/sranantongo

收藏
Hugging Face2024-04-22 更新2024-06-12 收录
下载链接:
https://hf-mirror.com/datasets/davidstap/sranantongo
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集是为Sranantongo语言设计的,这是一种基于英语的克里奥尔语,作为苏里南的通用语使用。数据集包含单语数据和Sranantongo-荷兰语的平行数据。单语数据来自SIL,包含一个训练集(6570句)。平行数据分为两部分:一部分来自耶和华见证人,包含训练集(299085句)、验证集(256句)和测试集(256句);另一部分来自Z-Library、Naks Sranan Facebook和荷兰DOJ,包含训练集(3610句)、验证集(256句)和测试集(256句)。

该数据集是为Sranantongo语言设计的,这是一种基于英语的克里奥尔语,作为苏里南的通用语使用。数据集包含单语数据和Sranantongo-荷兰语的平行数据。单语数据来自SIL,包含一个训练集(6570句)。平行数据分为两部分:一部分来自耶和华见证人,包含训练集(299085句)、验证集(256句)和测试集(256句);另一部分来自Z-Library、Naks Sranan Facebook和荷兰DOJ,包含训练集(3610句)、验证集(256句)和测试集(256句)。
提供机构:
davidstap
原始信息汇总

数据集概述

语言和任务

  • 语言: Sranantongo, Dutch
  • 多语言性: 翻译
  • 任务类别: 翻译

数据集内容

  • Sranantongo: 英语基础的克里奥尔语,在苏里南作为通用语使用。

数据集分割

  • srn:
    • 类型: 单语数据
    • 来源: 从SIL抓取
    • 分割: train (6570 sentences)
  • srn-nl_jw:
    • 类型: 平行数据(Sranantongo-Dutch)
    • 来源: 耶和华见证人
    • 分割: train (299085 sentences), validation (256 sentences), test (256 sentences)
  • srn-nl_other:
    • 类型: 平行数据(Sranantongo-Dutch)
    • 来源: Z-Library, Naks Sranan Facebook, 荷兰DOJ
    • 分割: train (3610 sentences), validation (256 sentences), test (256 sentences)

使用示例

  • 加载单语数据: python dataset = load_dataset("davidstap/sranantongo", "srn", trust_remote_code=True)

  • 加载平行JW数据: python dataset = load_dataset("davidstap/sranantongo", "srn-nl_jw", trust_remote_code=True)

  • 加载平行其他数据: python dataset = load_dataset("davidstap/sranantongo", "srn-nl_other", trust_remote_code=True)

引用信息

@article{zwennicker2022towards, title={Towards a general purpose machine translation system for Sranantongo}, author={Zwennicker, Just and Stap, David}, journal={arXiv preprint arXiv:2212.06383}, year={2022} }

搜集汇总
数据集介绍
main_image_url
背景与挑战
背景概述
该数据集专注于苏里南的英语克里奥尔语Sranantongo,包含单语数据和平行翻译数据(Sranantongo-荷兰语),用于机器翻译任务。数据集分为三个子集:单语数据(srn)和两个平行数据子集(srn-nl_jw和srn-nl_other),分别来自不同来源,总计超过30万个句子。数据集基于相关研究论文(arXiv:2212.06383)构建,旨在支持Sranantongo的通用机器翻译系统开发。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作