SEACrowd/kopi_nllb
收藏Kopi Nllb 数据集概述
语言
- ind
- jav
- ace
- ban
- bjn
- min
- sun
支持的任务
- 自监督预训练
数据集使用
使用 datasets 库
python from datasets import load_dataset dset = datasets.load_dataset("SEACrowd/kopi_nllb", trust_remote_code=True)
使用 seacrowd 库
python import seacrowd as sc
使用默认配置加载数据集
dset = sc.load_dataset("kopi_nllb", schema="seacrowd")
查看数据集的所有可用子集(配置名称)
print(sc.available_config_names("kopi_nllb"))
使用特定配置加载数据集
dset = sc.load_dataset_by_config_name(config_name="<config_name>")
数据集版本
- 源版本: 2022.09.13
- SEACrowd 版本: 2024.06.20
数据集许可证
- ODC_C
引用
plaintext Hefferman et al, Bitext Mining Using Distilled Sentence Representations for Low-Resource Languages. Arxiv https://arxiv.org/abs/2205.12654, 2022. NLLB Team et al, No Language Left Behind: Scaling Human-Centered Machine Translation, Arxiv https://arxiv.org/abs/2207.04672, 2022.
@article{lovenia2024seacrowd, title={SEACrowd: A Multilingual Multimodal Data Hub and Benchmark Suite for Southeast Asian Languages}, author={Holy Lovenia and others}, year={2024}, eprint={2406.10118}, journal={arXiv preprint arXiv: 2406.10118} }



