five

Helsinki-NLP/tatoeba

收藏
Hugging Face2024-01-18 更新2024-05-25 收录
下载链接:
https://hf-mirror.com/datasets/Helsinki-NLP/tatoeba
下载链接
链接失效反馈
官方服务:
资源简介:
Tatoeba是一个包含多种语言的句子和翻译的集合。它支持多种语言对,用户可以通过指定语言代码来加载特定的语言对。数据集的规模在10K到100K之间,主要用于翻译任务。

Tatoeba是一个包含多种语言的句子和翻译的集合。它支持多种语言对,用户可以通过指定语言代码来加载特定的语言对。数据集的规模在10K到100K之间,主要用于翻译任务。
提供机构:
Helsinki-NLP
原始信息汇总

数据集概述

数据集名称: Tatoeba

数据集描述: Tatoeba是一个包含多种语言的句子和翻译的集合。用户可以通过指定语言代码来加载不同的语言对。

语言支持: 数据集支持多种语言,包括但不限于ab, acm, ady, af等。

数据集特征

  • 多语言性: 数据集支持多语言,涵盖广泛的语种。
  • 许可证: 数据集采用CC-BY-2.0许可证。
  • 大小分类: 数据集大小属于10K<n<100K类别。

数据集结构

数据集包含多个配置,每个配置对应不同的语言对,例如:

  • 配置名称: en-mr

    • 特征:
      • id: 数据类型为字符串。
      • translation: 数据类型为翻译,支持的语言包括英语(en)和马拉地语(mr)。
    • 数据分割:
      • train: 训练集包含53462个例子,总字节数为6190484。
  • 配置名称: eo-nl

    • 特征:
      • id: 数据类型为字符串。
      • translation: 数据类型为翻译,支持的语言包括世界语(eo)和荷兰语(nl)。
    • 数据分割:
      • train: 训练集包含93650个例子,总字节数为8150048。
  • 配置名称: es-pt

    • 特征:
      • id: 数据类型为字符串。
      • translation: 数据类型为翻译,支持的语言包括西班牙语(es)和葡萄牙语(pt)。
    • 数据分割:
      • train: 训练集包含67782个例子,总字节数为6180464。
  • 配置名称: fr-ru

    • 特征:
      • id: 数据类型为字符串。
      • translation: 数据类型为翻译,支持的语言包括法语(fr)和俄语(ru)。
    • 数据分割:
      • train: 训练集包含195161个例子,总字节数为19775390。
  • 配置名称: es-gl

    • 特征:
      • id: 数据类型为字符串。
      • translation: 数据类型为翻译,支持的语言包括西班牙语(es)和加利西亚语(gl)。
    • 数据分割:
      • train: 训练集包含3135个例子,总字节数为287683。

数据集来源

  • 源数据集: 原始数据
  • 任务类别: 翻译

以上信息基于提供的README文件内容,概述了Tatoeba数据集的关键特征和结构。

搜集汇总
数据集介绍
main_image_url
背景与挑战
背景概述
Tatoeba是一个包含多种语言句子和翻译的数据集,支持超过350种语言,适用于翻译任务。数据集规模中等(10K-100K),采用cc-by-2.0许可证,用户可灵活加载特定语言对并选择不同日期版本。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作