five

wecover/OPUS_Tatoeba

收藏
Hugging Face2024-02-03 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/wecover/OPUS_Tatoeba
下载链接
链接失效反馈
官方服务:
资源简介:
--- configs: - config_name: default data_files: - split: train path: '*/*/train.parquet' - split: valid path: '*/*/valid.parquet' - config_name: af data_files: - split: train path: '*/*af*/train.parquet' - split: valid path: '*/*af*/valid.parquet' - config_name: ar data_files: - split: train path: '*/*ar*/train.parquet' - split: valid path: '*/*ar*/valid.parquet' - config_name: ca data_files: - split: train path: '*/*ca*/train.parquet' - split: valid path: '*/*ca*/valid.parquet' - config_name: cs data_files: - split: train path: '*/*cs*/train.parquet' - split: valid path: '*/*cs*/valid.parquet' - config_name: de data_files: - split: train path: '*/*de*/train.parquet' - split: valid path: '*/*de*/valid.parquet' - config_name: en data_files: - split: train path: '*/*en*/train.parquet' - split: valid path: '*/*en*/valid.parquet' - config_name: eo data_files: - split: train path: '*/*eo*/train.parquet' - split: valid path: '*/*eo*/valid.parquet' - config_name: es data_files: - split: train path: '*/*es*/train.parquet' - split: valid path: '*/*es*/valid.parquet' - config_name: fi data_files: - split: train path: '*/*fi*/train.parquet' - split: valid path: '*/*fi*/valid.parquet' - config_name: fr data_files: - split: train path: '*/*fr*/train.parquet' - split: valid path: '*/*fr*/valid.parquet' - config_name: ga data_files: - split: train path: '*/*ga*/train.parquet' - split: valid path: '*/*ga*/valid.parquet' - config_name: it data_files: - split: train path: '*/*it*/train.parquet' - split: valid path: '*/*it*/valid.parquet' - config_name: ja data_files: - split: train path: '*/*ja*/train.parquet' - split: valid path: '*/*ja*/valid.parquet' - config_name: la data_files: - split: train path: '*/*la*/train.parquet' - split: valid path: '*/*la*/valid.parquet' - config_name: nl data_files: - split: train path: '*/*nl*/train.parquet' - split: valid path: '*/*nl*/valid.parquet' - config_name: pl data_files: - split: train path: '*/*pl*/train.parquet' - split: valid path: '*/*pl*/valid.parquet' - config_name: pt data_files: - split: train path: '*/*pt*/train.parquet' - split: valid path: '*/*pt*/valid.parquet' - config_name: ro data_files: - split: train path: '*/*ro*/train.parquet' - split: valid path: '*/*ro*/valid.parquet' - config_name: ru data_files: - split: train path: '*/*ru*/train.parquet' - split: valid path: '*/*ru*/valid.parquet' - config_name: sv data_files: - split: train path: '*/*sv*/train.parquet' - split: valid path: '*/*sv*/valid.parquet' - config_name: tr data_files: - split: train path: '*/*tr*/train.parquet' - split: valid path: '*/*tr*/valid.parquet' - config_name: uk data_files: - split: train path: '*/*uk*/train.parquet' - split: valid path: '*/*uk*/valid.parquet' - config_name: xh data_files: - split: train path: '*/*xh*/train.parquet' - split: valid path: '*/*xh*/valid.parquet' - config_name: yi data_files: - split: train path: '*/*yi*/train.parquet' - split: valid path: '*/*yi*/valid.parquet' - config_name: am data_files: - split: train path: '*/*am*/train.parquet' - split: valid path: '*/*am*/valid.parquet' - config_name: bg data_files: - split: train path: '*/*bg*/train.parquet' - split: valid path: '*/*bg*/valid.parquet' - config_name: da data_files: - split: train path: '*/*da*/train.parquet' - split: valid path: '*/*da*/valid.parquet' - config_name: el data_files: - split: train path: '*/*el*/train.parquet' - split: valid path: '*/*el*/valid.parquet' - config_name: he data_files: - split: train path: '*/*he*/train.parquet' - split: valid path: '*/*he*/valid.parquet' - config_name: hu data_files: - split: train path: '*/*hu*/train.parquet' - split: valid path: '*/*hu*/valid.parquet' - config_name: ko data_files: - split: train path: '*/*ko*/train.parquet' - split: valid path: '*/*ko*/valid.parquet' - config_name: ku data_files: - split: train path: '*/*ku*/train.parquet' - split: valid path: '*/*ku*/valid.parquet' - config_name: lt data_files: - split: train path: '*/*lt*/train.parquet' - split: valid path: '*/*lt*/valid.parquet' - config_name: mk data_files: - split: train path: '*/*mk*/train.parquet' - split: valid path: '*/*mk*/valid.parquet' - config_name: ug data_files: - split: train path: '*/*ug*/train.parquet' - split: valid path: '*/*ug*/valid.parquet' - config_name: ur data_files: - split: train path: '*/*ur*/train.parquet' - split: valid path: '*/*ur*/valid.parquet' - config_name: as data_files: - split: train path: '*/*as*/train.parquet' - split: valid path: '*/*as*/valid.parquet' - config_name: bn data_files: - split: train path: '*/*bn*/train.parquet' - split: valid path: '*/*bn*/valid.parquet' - config_name: hi data_files: - split: train path: '*/*hi*/train.parquet' - split: valid path: '*/*hi*/valid.parquet' - config_name: az data_files: - split: train path: '*/*az*/train.parquet' - split: valid path: '*/*az*/valid.parquet' - config_name: kk data_files: - split: train path: '*/*kk*/train.parquet' - split: valid path: '*/*kk*/valid.parquet' - config_name: be data_files: - split: train path: '*/*be*/train.parquet' - split: valid path: '*/*be*/valid.parquet' - config_name: et data_files: - split: train path: '*/*et*/train.parquet' - split: valid path: '*/*et*/valid.parquet' - config_name: sl data_files: - split: train path: '*/*sl*/train.parquet' - split: valid path: '*/*sl*/valid.parquet' - config_name: sr data_files: - split: train path: '*/*sr*/train.parquet' - split: valid path: '*/*sr*/valid.parquet' - config_name: vi data_files: - split: train path: '*/*vi*/train.parquet' - split: valid path: '*/*vi*/valid.parquet' - config_name: id data_files: - split: train path: '*/*id*/train.parquet' - split: valid path: '*/*id*/valid.parquet' - config_name: br data_files: - split: train path: '*/*br*/train.parquet' - split: valid path: '*/*br*/valid.parquet' - config_name: bs data_files: - split: train path: '*/*bs*/train.parquet' - split: valid path: '*/*bs*/valid.parquet' - config_name: hr data_files: - split: train path: '*/*hr*/train.parquet' - split: valid path: '*/*hr*/valid.parquet' - config_name: gl data_files: - split: train path: '*/*gl*/train.parquet' - split: valid path: '*/*gl*/valid.parquet' - config_name: fy data_files: - split: train path: '*/*fy*/train.parquet' - split: valid path: '*/*fy*/valid.parquet' - config_name: ka data_files: - split: train path: '*/*ka*/train.parquet' - split: valid path: '*/*ka*/valid.parquet' - config_name: tl data_files: - split: train path: '*/*tl*/train.parquet' - split: valid path: '*/*tl*/valid.parquet' - config_name: cy data_files: - split: train path: '*/*cy*/train.parquet' - split: valid path: '*/*cy*/valid.parquet' - config_name: is data_files: - split: train path: '*/*is*/train.parquet' - split: valid path: '*/*is*/valid.parquet' - config_name: eu data_files: - split: train path: '*/*eu*/train.parquet' - split: valid path: '*/*eu*/valid.parquet' - config_name: gd data_files: - split: train path: '*/*gd*/train.parquet' - split: valid path: '*/*gd*/valid.parquet' - config_name: ha data_files: - split: train path: '*/*ha*/train.parquet' - split: valid path: '*/*ha*/valid.parquet' - config_name: hy data_files: - split: train path: '*/*hy*/train.parquet' - split: valid path: '*/*hy*/valid.parquet' - config_name: km data_files: - split: train path: '*/*km*/train.parquet' - split: valid path: '*/*km*/valid.parquet' - config_name: ky data_files: - split: train path: '*/*ky*/train.parquet' - split: valid path: '*/*ky*/valid.parquet' - config_name: mn data_files: - split: train path: '*/*mn*/train.parquet' - split: valid path: '*/*mn*/valid.parquet' - config_name: mr data_files: - split: train path: '*/*mr*/train.parquet' - split: valid path: '*/*mr*/valid.parquet' - config_name: my data_files: - split: train path: '*/*my*/train.parquet' - split: valid path: '*/*my*/valid.parquet' - config_name: th data_files: - split: train path: '*/*th*/train.parquet' - split: valid path: '*/*th*/valid.parquet' - config_name: uz data_files: - split: train path: '*/*uz*/train.parquet' - split: valid path: '*/*uz*/valid.parquet' - config_name: jv data_files: - split: train path: '*/*jv*/train.parquet' - split: valid path: '*/*jv*/valid.parquet' - config_name: kn data_files: - split: train path: '*/*kn*/train.parquet' - split: valid path: '*/*kn*/valid.parquet' - config_name: lo data_files: - split: train path: '*/*lo*/train.parquet' - split: valid path: '*/*lo*/valid.parquet' - config_name: mg data_files: - split: train path: '*/*mg*/train.parquet' - split: valid path: '*/*mg*/valid.parquet' - config_name: ml data_files: - split: train path: '*/*ml*/train.parquet' - split: valid path: '*/*ml*/valid.parquet' - config_name: or data_files: - split: train path: '*/*or*/train.parquet' - split: valid path: '*/*or*/valid.parquet' - config_name: pa data_files: - split: train path: '*/*pa*/train.parquet' - split: valid path: '*/*pa*/valid.parquet' - config_name: ps data_files: - split: train path: '*/*ps*/train.parquet' - split: valid path: '*/*ps*/valid.parquet' - config_name: sa data_files: - split: train path: '*/*sa*/train.parquet' - split: valid path: '*/*sa*/valid.parquet' - config_name: sd data_files: - split: train path: '*/*sd*/train.parquet' - config_name: si data_files: - split: train path: '*/*si*/train.parquet' - split: valid path: '*/*si*/valid.parquet' - config_name: so data_files: - split: train path: '*/*so*/train.parquet' - split: valid path: '*/*so*/valid.parquet' - config_name: sq data_files: - split: train path: '*/*sq*/train.parquet' - split: valid path: '*/*sq*/valid.parquet' - config_name: su data_files: - split: train path: '*/*su*/train.parquet' - split: valid path: '*/*su*/valid.parquet' - config_name: ta data_files: - split: train path: '*/*ta*/train.parquet' - split: valid path: '*/*ta*/valid.parquet' - config_name: te data_files: - split: train path: '*/*te*/train.parquet' - split: valid path: '*/*te*/valid.parquet' ---
提供机构:
wecover
原始信息汇总

数据集配置

该数据集包含多个配置,每个配置对应不同的语言和数据文件路径。以下是各配置的详细信息:

默认配置

  • 配置名称: default
  • 数据文件:
    • 训练集: */*/train.parquet
    • 验证集: */*/valid.parquet

语言配置

  • 配置名称: af

  • 数据文件:

    • 训练集: */*af*/train.parquet
    • 验证集: */*af*/valid.parquet
  • 配置名称: ar

  • 数据文件:

    • 训练集: */*ar*/train.parquet
    • 验证集: */*ar*/valid.parquet
  • 配置名称: ca

  • 数据文件:

    • 训练集: */*ca*/train.parquet
    • 验证集: */*ca*/valid.parquet
  • 配置名称: cs

  • 数据文件:

    • 训练集: */*cs*/train.parquet
    • 验证集: */*cs*/valid.parquet
  • 配置名称: de

  • 数据文件:

    • 训练集: */*de*/train.parquet
    • 验证集: */*de*/valid.parquet
  • 配置名称: en

  • 数据文件:

    • 训练集: */*en*/train.parquet
    • 验证集: */*en*/valid.parquet
  • 配置名称: eo

  • 数据文件:

    • 训练集: */*eo*/train.parquet
    • 验证集: */*eo*/valid.parquet
  • 配置名称: es

  • 数据文件:

    • 训练集: */*es*/train.parquet
    • 验证集: */*es*/valid.parquet
  • 配置名称: fi

  • 数据文件:

    • 训练集: */*fi*/train.parquet
    • 验证集: */*fi*/valid.parquet
  • 配置名称: fr

  • 数据文件:

    • 训练集: */*fr*/train.parquet
    • 验证集: */*fr*/valid.parquet
  • 配置名称: ga

  • 数据文件:

    • 训练集: */*ga*/train.parquet
    • 验证集: */*ga*/valid.parquet
  • 配置名称: it

  • 数据文件:

    • 训练集: */*it*/train.parquet
    • 验证集: */*it*/valid.parquet
  • 配置名称: ja

  • 数据文件:

    • 训练集: */*ja*/train.parquet
    • 验证集: */*ja*/valid.parquet
  • 配置名称: la

  • 数据文件:

    • 训练集: */*la*/train.parquet
    • 验证集: */*la*/valid.parquet
  • 配置名称: nl

  • 数据文件:

    • 训练集: */*nl*/train.parquet
    • 验证集: */*nl*/valid.parquet
  • 配置名称: pl

  • 数据文件:

    • 训练集: */*pl*/train.parquet
    • 验证集: */*pl*/valid.parquet
  • 配置名称: pt

  • 数据文件:

    • 训练集: */*pt*/train.parquet
    • 验证集: */*pt*/valid.parquet
  • 配置名称: ro

  • 数据文件:

    • 训练集: */*ro*/train.parquet
    • 验证集: */*ro*/valid.parquet
  • 配置名称: ru

  • 数据文件:

    • 训练集: */*ru*/train.parquet
    • 验证集: */*ru*/valid.parquet
  • 配置名称: sv

  • 数据文件:

    • 训练集: */*sv*/train.parquet
    • 验证集: */*sv*/valid.parquet
  • 配置名称: tr

  • 数据文件:

    • 训练集: */*tr*/train.parquet
    • 验证集: */*tr*/valid.parquet
  • 配置名称: uk

  • 数据文件:

    • 训练集: */*uk*/train.parquet
    • 验证集: */*uk*/valid.parquet
  • 配置名称: xh

  • 数据文件:

    • 训练集: */*xh*/train.parquet
    • 验证集: */*xh*/valid.parquet
  • 配置名称: yi

  • 数据文件:

    • 训练集: */*yi*/train.parquet
    • 验证集: */*yi*/valid.parquet
  • 配置名称: am

  • 数据文件:

    • 训练集: */*am*/train.parquet
    • 验证集: */*am*/valid.parquet
  • 配置名称: bg

  • 数据文件:

    • 训练集: */*bg*/train.parquet
    • 验证集: */*bg*/valid.parquet
  • 配置名称: da

  • 数据文件:

    • 训练集: */*da*/train.parquet
    • 验证集: */*da*/valid.parquet
  • 配置名称: el

  • 数据文件:

    • 训练集: */*el*/train.parquet
    • 验证集: */*el*/valid.parquet
  • 配置名称: he

  • 数据文件:

    • 训练集: */*he*/train.parquet
    • 验证集: */*he*/valid.parquet
  • 配置名称: hu

  • 数据文件:

    • 训练集: */*hu*/train.parquet
    • 验证集: */*hu*/valid.parquet
  • 配置名称: ko

  • 数据文件:

    • 训练集: */*ko*/train.parquet
    • 验证集: */*ko*/valid.parquet
  • 配置名称: ku

  • 数据文件:

    • 训练集: */*ku*/train.parquet
    • 验证集: */*ku*/valid.parquet
  • 配置名称: lt

  • 数据文件:

    • 训练集: */*lt*/train.parquet
    • 验证集: */*lt*/valid.parquet
  • 配置名称: mk

  • 数据文件:

    • 训练集: */*mk*/train.parquet
    • 验证集: */*mk*/valid.parquet
  • 配置名称: ug

  • 数据文件:

    • 训练集: */*ug*/train.parquet
    • 验证集: */*ug*/valid.parquet
  • 配置名称: ur

  • 数据文件:

    • 训练集: */*ur*/train.parquet
    • 验证集: */*ur*/valid.parquet
  • 配置名称: as

  • 数据文件:

    • 训练集: */*as*/train.parquet
    • 验证集: */*as*/valid.parquet
  • 配置名称: bn

  • 数据文件:

    • 训练集: */*bn*/train.parquet
    • 验证集: */*bn*/valid.parquet
  • 配置名称: hi

  • 数据文件:

    • 训练集: */*hi*/train.parquet
    • 验证集: */*hi*/valid.parquet
  • 配置名称: az

  • 数据文件:

    • 训练集: */*az*/train.parquet
    • 验证集: */*az*/valid.parquet
  • 配置名称: kk

  • 数据文件:

    • 训练集: */*kk*/train.parquet
    • 验证集: */*kk*/valid.parquet
  • 配置名称: be

  • 数据文件:

    • 训练集: */*be*/train.parquet
    • 验证集: */*be*/valid.parquet
  • 配置名称: et

  • 数据文件:

    • 训练集: */*et*/train.parquet
    • 验证集: */*et*/valid.parquet
  • 配置名称: sl

  • 数据文件:

    • 训练集: */*sl*/train.parquet
    • 验证集: */*sl*/valid.parquet
  • 配置名称: sr

  • 数据文件:

    • 训练集: */*sr*/train.parquet
    • 验证集: */*sr*/valid.parquet
  • 配置名称: vi

  • 数据文件:

    • 训练集: */*vi*/train.parquet
    • 验证集: */*vi*/valid.parquet
  • 配置名称: id

  • 数据文件:

    • 训练集: */*id*/train.parquet
    • 验证集: */*id*/valid.parquet
  • 配置名称: br

  • 数据文件:

    • 训练集: */*br*/train.parquet
    • 验证集: */*br*/valid.parquet
  • 配置名称: bs

  • 数据文件:

    • 训练集: */*bs*/train.parquet
    • 验证集: */*bs*/valid.parquet
  • 配置名称: hr

  • 数据文件:

    • 训练集: */*hr*/train.parquet
    • 验证集: */*hr*/valid.parquet
  • 配置名称: gl

  • 数据文件:

    • 训练集: */*gl*/train.parquet
    • 验证集: */*gl*/valid.parquet
  • 配置名称: fy

  • 数据文件:

    • 训练集: */*fy*/train.parquet
    • 验证集: */*fy*/valid.parquet
  • 配置名称: ka

  • 数据文件:

    • 训练集: */*ka*/train.parquet
    • 验证集: */*ka*/valid.parquet
  • 配置名称: tl

  • 数据文件:

    • 训练集: */*tl*/train.parquet
    • 验证集: */*tl*/valid.parquet
  • 配置名称: cy

  • 数据文件:

    • 训练集: */*cy*/train.parquet
    • 验证集: */*cy*/valid.parquet
  • 配置名称: is

  • 数据文件:

    • 训练集: */*is*/train.parquet
    • 验证集: */*is*/valid.parquet
  • 配置名称: eu

  • 数据文件:

    • 训练集: */*eu*/train.parquet
    • 验证集: */*eu*/valid.parquet
  • 配置名称: gd

  • 数据文件:

    • 训练集: */*gd*/train.parquet
    • 验证集: */*gd*/valid.parquet
  • 配置名称: ha

  • 数据文件:

    • 训练集: */*ha*/train.parquet
    • 验证集: */*ha*/valid.parquet
  • 配置名称: hy

  • 数据文件:

    • 训练集: */*hy*/train.parquet
    • 验证集: */*hy*/valid.parquet
  • 配置名称: km

  • 数据文件:

    • 训练集: */*km*/train.parquet
    • 验证集: */*km*/valid.parquet
  • 配置名称: ky

  • 数据文件:

    • 训练集: */*ky*/train.parquet
    • 验证集: */*ky*/valid.parquet
  • 配置名称: mn

  • 数据文件:

    • 训练集: */*mn*/train.parquet
    • 验证集: */*mn*/valid.parquet
  • 配置名称: mr

  • 数据文件:

    • 训练集: */*mr*/train.parquet
    • 验证集: */*mr*/valid.parquet
  • 配置名称: my

  • 数据文件:

    • 训练集: */*my*/train.parquet
    • 验证集: */*my*/valid.parquet
  • 配置名称: th

  • 数据文件:

    • 训练集: */*th*/train.parquet
    • 验证集: */*th*/valid.parquet
  • 配置名称: uz

  • 数据文件:

    • 训练集: */*uz*/train.parquet
    • 验证集: */*uz*/valid.parquet
  • 配置名称: jv

  • 数据文件:

    • 训练集: */*jv*/train.parquet
    • 验证集: */*jv*/valid.parquet
  • 配置名称: kn

  • 数据文件:

    • 训练集: */*kn*/train.parquet
    • 验证集: */*kn*/valid.parquet
  • 配置名称: lo

  • 数据文件:

    • 训练集: */*lo*/train.parquet
    • 验证集: */*lo*/valid.parquet
  • 配置名称: mg

  • 数据文件:

    • 训练集: */*mg*/train.parquet
    • 验证集: */*mg*/valid.parquet
  • 配置名称: ml

  • 数据文件:

    • 训练集: */*ml*/train.parquet
    • 验证集: */*ml*/valid.parquet
  • 配置名称: or

  • 数据文件:

    • 训练集: */*or*/train.parquet
    • 验证集: */*or*/valid.parquet
  • 配置名称: pa

  • 数据文件:

    • 训练集: */*pa*/train.parquet
    • 验证集: */*pa*/valid.parquet
  • 配置名称: ps

  • 数据文件:

    • 训练集: */*ps*/train.parquet
    • 验证集: */*ps*/valid.parquet
  • 配置名称: sa

  • 数据文件:

    • 训练集: */*sa*/train.parquet
    • 验证集: */*sa*/valid.parquet
  • 配置名称: sd

  • 数据文件:

    • 训练集: */*sd*/train.parquet
  • 配置名称: si

  • 数据文件:

    • 训练集: */*si*/train.parquet
    • 验证集: */*si*/valid.parquet
  • 配置名称: so

  • 数据文件:

    • 训练集: */*so*/train.parquet
    • 验证集: */*so*/valid.parquet
  • 配置名称: sq

  • 数据文件:

    • 训练集: */*sq*/train.parquet
    • 验证集: */*sq*/valid.parquet
  • 配置名称: su

  • 数据文件:

    • 训练集: */*su*/train.parquet
    • 验证集: */*su*/valid.parquet
  • 配置名称: ta

  • 数据文件:

    • 训练集: */*ta*/train.parquet
    • 验证集: */*ta*/valid.parquet
  • 配置名称: te

  • 数据文件:

    • 训练集: */*te*/train.parquet
    • 验证集: */*te*/valid.parquet
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作