Helsinki-NLP/tatoeba

Name: Helsinki-NLP/tatoeba
Creator: Helsinki-NLP
Published: 2024-01-18 11:16:48
License: 暂无描述

Hugging Face2024-01-18 更新2024-05-25 收录

下载链接：

https://hf-mirror.com/datasets/Helsinki-NLP/tatoeba

下载链接

链接失效反馈

官方服务：

资源简介：

Tatoeba是一个包含多种语言的句子和翻译的集合。它支持多种语言对，用户可以通过指定语言代码来加载特定的语言对。数据集的规模在10K到100K之间，主要用于翻译任务。

提供机构：

Helsinki-NLP

原始信息汇总

数据集名称: Tatoeba

数据集描述: Tatoeba是一个包含多种语言的句子和翻译的集合。用户可以通过指定语言代码来加载不同的语言对。

语言支持: 数据集支持多种语言，包括但不限于ab, acm, ady, af等。

数据集包含多个配置，每个配置对应不同的语言对，例如：

配置名称: en-mr
- 特征:
  - id: 数据类型为字符串。
  - translation: 数据类型为翻译，支持的语言包括英语(en)和马拉地语(mr)。
- 数据分割:
  - train: 训练集包含53462个例子，总字节数为6190484。
配置名称: eo-nl
- 特征:
  - id: 数据类型为字符串。
  - translation: 数据类型为翻译，支持的语言包括世界语(eo)和荷兰语(nl)。
- 数据分割:
  - train: 训练集包含93650个例子，总字节数为8150048。
配置名称: es-pt
- 特征:
  - id: 数据类型为字符串。
  - translation: 数据类型为翻译，支持的语言包括西班牙语(es)和葡萄牙语(pt)。
- 数据分割:
  - train: 训练集包含67782个例子，总字节数为6180464。
配置名称: fr-ru
- 特征:
  - id: 数据类型为字符串。
  - translation: 数据类型为翻译，支持的语言包括法语(fr)和俄语(ru)。
- 数据分割:
  - train: 训练集包含195161个例子，总字节数为19775390。
配置名称: es-gl
- 特征:
  - id: 数据类型为字符串。
  - translation: 数据类型为翻译，支持的语言包括西班牙语(es)和加利西亚语(gl)。
- 数据分割:
  - train: 训练集包含3135个例子，总字节数为287683。

以上信息基于提供的README文件内容，概述了Tatoeba数据集的关键特征和结构。

搜集汇总

数据集介绍

背景与挑战

背景概述

Tatoeba是一个包含多种语言句子和翻译的数据集，支持超过350种语言，适用于翻译任务。数据集规模中等（10K-100K），采用cc-by-2.0许可证，用户可灵活加载特定语言对并选择不同日期版本。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集