five

SEACrowd/kopi_nllb

收藏
Hugging Face2024-06-24 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/SEACrowd/kopi_nllb
下载链接
链接失效反馈
官方服务:
资源简介:
Kopi Nllb数据集是一个包含印度尼西亚语系语言(如亚齐语、巴厘语、班贾尔语、印度尼西亚语、爪哇语、米南加保语和巽他语)的数据集,这些数据是从NLLB数据集中提取的,并使用了去重技术进行过滤。数据集支持自监督预训练任务,并提供了使用`datasets`和`seacrowd`库加载数据集的方法。
提供机构:
SEACrowd
原始信息汇总

Kopi Nllb 数据集概述

语言

  • ind
  • jav
  • ace
  • ban
  • bjn
  • min
  • sun

支持的任务

  • 自监督预训练

数据集使用

使用 datasets

python from datasets import load_dataset dset = datasets.load_dataset("SEACrowd/kopi_nllb", trust_remote_code=True)

使用 seacrowd

python import seacrowd as sc

使用默认配置加载数据集

dset = sc.load_dataset("kopi_nllb", schema="seacrowd")

查看数据集的所有可用子集(配置名称)

print(sc.available_config_names("kopi_nllb"))

使用特定配置加载数据集

dset = sc.load_dataset_by_config_name(config_name="<config_name>")

数据集版本

  • 源版本: 2022.09.13
  • SEACrowd 版本: 2024.06.20

数据集许可证

  • ODC_C

引用

plaintext Hefferman et al, Bitext Mining Using Distilled Sentence Representations for Low-Resource Languages. Arxiv https://arxiv.org/abs/2205.12654, 2022. NLLB Team et al, No Language Left Behind: Scaling Human-Centered Machine Translation, Arxiv https://arxiv.org/abs/2207.04672, 2022.

@article{lovenia2024seacrowd, title={SEACrowd: A Multilingual Multimodal Data Hub and Benchmark Suite for Southeast Asian Languages}, author={Holy Lovenia and others}, year={2024}, eprint={2406.10118}, journal={arXiv preprint arXiv: 2406.10118} }

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作