five

gentaiscool/bitext_nusatranslation_miners

收藏
Hugging Face2024-06-13 更新2024-06-29 收录
下载链接:
https://hf-mirror.com/datasets/gentaiscool/bitext_nusatranslation_miners
下载链接
链接失效反馈
官方服务:
资源简介:
--- license: cc-by-sa-4.0 language: - abs - btk - bew - bhp - ind - jav - mad - mak - min - mui - rej - sun configs: - config_name: default data_files: - split: train path: "train/*" - config_name: ind-abs data_files: - split: train path: "train/ind-abs.jsonl" - config_name: ind-btk data_files: - split: train path: "train/ind-btk.jsonl" - config_name: ind-bew data_files: - split: train path: "train/ind-bew.jsonl" - config_name: ind-bhp data_files: - split: train path: "train/ind-bhp.jsonl" - config_name: ind-jav data_files: - split: train path: "train/ind-jav.jsonl" - config_name: ind-mad data_files: - split: train path: "train/ind-mad.jsonl" - config_name: ind-mak data_files: - split: train path: "train/ind-mak.jsonl" - config_name: ind-min data_files: - split: train path: "train/ind-min.jsonl" - config_name: ind-mui data_files: - split: train path: "train/ind-mui.jsonl" - config_name: ind-rej data_files: - split: train path: "train/ind-rej.jsonl" - config_name: ind-sun data_files: - split: train path: "train/ind-sun.jsonl" ---
提供机构:
gentaiscool
原始信息汇总

数据集概述

许可证

  • 数据集使用CC BY-SA 4.0许可证。

支持的语言

  • 数据集支持以下语言:
    • abs
    • btk
    • bew
    • bhp
    • ind
    • jav
    • mad
    • mak
    • min
    • mui
    • rej
    • sun

配置

  • 数据集包含多个配置,每个配置对应不同的语言组合:
    • default: 包含所有语言的数据。
      • 训练数据路径: train/*
    • ind-abs: 包含ind和abs语言的数据。
      • 训练数据路径: train/ind-abs.jsonl
    • ind-btk: 包含ind和btk语言的数据。
      • 训练数据路径: train/ind-btk.jsonl
    • ind-bew: 包含ind和bew语言的数据。
      • 训练数据路径: train/ind-bew.jsonl
    • ind-bhp: 包含ind和bhp语言的数据。
      • 训练数据路径: train/ind-bhp.jsonl
    • ind-jav: 包含ind和jav语言的数据。
      • 训练数据路径: train/ind-jav.jsonl
    • ind-mad: 包含ind和mad语言的数据。
      • 训练数据路径: train/ind-mad.jsonl
    • ind-mak: 包含ind和mak语言的数据。
      • 训练数据路径: train/ind-mak.jsonl
    • ind-min: 包含ind和min语言的数据。
      • 训练数据路径: train/ind-min.jsonl
    • ind-mui: 包含ind和mui语言的数据。
      • 训练数据路径: train/ind-mui.jsonl
    • ind-rej: 包含ind和rej语言的数据。
      • 训练数据路径: train/ind-rej.jsonl
    • ind-sun: 包含ind和sun语言的数据。
      • 训练数据路径: train/ind-sun.jsonl
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作