gentaiscool/bitext_nusatranslation_miners
收藏Hugging Face2024-06-13 更新2024-06-29 收录
下载链接:
https://hf-mirror.com/datasets/gentaiscool/bitext_nusatranslation_miners
下载链接
链接失效反馈官方服务:
资源简介:
---
license: cc-by-sa-4.0
language:
- abs
- btk
- bew
- bhp
- ind
- jav
- mad
- mak
- min
- mui
- rej
- sun
configs:
- config_name: default
data_files:
- split: train
path: "train/*"
- config_name: ind-abs
data_files:
- split: train
path: "train/ind-abs.jsonl"
- config_name: ind-btk
data_files:
- split: train
path: "train/ind-btk.jsonl"
- config_name: ind-bew
data_files:
- split: train
path: "train/ind-bew.jsonl"
- config_name: ind-bhp
data_files:
- split: train
path: "train/ind-bhp.jsonl"
- config_name: ind-jav
data_files:
- split: train
path: "train/ind-jav.jsonl"
- config_name: ind-mad
data_files:
- split: train
path: "train/ind-mad.jsonl"
- config_name: ind-mak
data_files:
- split: train
path: "train/ind-mak.jsonl"
- config_name: ind-min
data_files:
- split: train
path: "train/ind-min.jsonl"
- config_name: ind-mui
data_files:
- split: train
path: "train/ind-mui.jsonl"
- config_name: ind-rej
data_files:
- split: train
path: "train/ind-rej.jsonl"
- config_name: ind-sun
data_files:
- split: train
path: "train/ind-sun.jsonl"
---
提供机构:
gentaiscool
原始信息汇总
数据集概述
许可证
- 数据集使用CC BY-SA 4.0许可证。
支持的语言
- 数据集支持以下语言:
- abs
- btk
- bew
- bhp
- ind
- jav
- mad
- mak
- min
- mui
- rej
- sun
配置
- 数据集包含多个配置,每个配置对应不同的语言组合:
- default: 包含所有语言的数据。
- 训练数据路径:
train/*
- 训练数据路径:
- ind-abs: 包含ind和abs语言的数据。
- 训练数据路径:
train/ind-abs.jsonl
- 训练数据路径:
- ind-btk: 包含ind和btk语言的数据。
- 训练数据路径:
train/ind-btk.jsonl
- 训练数据路径:
- ind-bew: 包含ind和bew语言的数据。
- 训练数据路径:
train/ind-bew.jsonl
- 训练数据路径:
- ind-bhp: 包含ind和bhp语言的数据。
- 训练数据路径:
train/ind-bhp.jsonl
- 训练数据路径:
- ind-jav: 包含ind和jav语言的数据。
- 训练数据路径:
train/ind-jav.jsonl
- 训练数据路径:
- ind-mad: 包含ind和mad语言的数据。
- 训练数据路径:
train/ind-mad.jsonl
- 训练数据路径:
- ind-mak: 包含ind和mak语言的数据。
- 训练数据路径:
train/ind-mak.jsonl
- 训练数据路径:
- ind-min: 包含ind和min语言的数据。
- 训练数据路径:
train/ind-min.jsonl
- 训练数据路径:
- ind-mui: 包含ind和mui语言的数据。
- 训练数据路径:
train/ind-mui.jsonl
- 训练数据路径:
- ind-rej: 包含ind和rej语言的数据。
- 训练数据路径:
train/ind-rej.jsonl
- 训练数据路径:
- ind-sun: 包含ind和sun语言的数据。
- 训练数据路径:
train/ind-sun.jsonl
- 训练数据路径:
- default: 包含所有语言的数据。



