five

vgaraujov/fapesp-v2

收藏
Hugging Face2024-03-29 更新2024-06-11 收录
下载链接:
https://hf-mirror.com/datasets/vgaraujov/fapesp-v2
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集是一个多语言翻译数据集,支持英语、西班牙语和葡萄牙语之间的翻译。数据集包含两种配置:英语到葡萄牙语(en-pt)和西班牙语到葡萄牙语(es-pt)。每种配置都包含训练集、验证集和测试集,分别用于模型训练、验证和测试。数据集的总大小约为48MB,下载大小约为29MB。
提供机构:
vgaraujov
原始信息汇总

数据集概述

语言支持

  • 英语 (en)
  • 西班牙语 (es)
  • 葡萄牙语 (pt)

许可

  • CC-BY-2.0

数据集配置

配置一:英语到葡萄牙语 (en-pt)

  • 特征:
    • 翻译 (translation)
      • 语言对: 英语, 葡萄牙语
  • 分割:
    • 训练集 (train):
      • 字节数: 47417503
      • 示例数: 160975
    • 验证集 (validation):
      • 字节数: 405055
      • 示例数: 1375
    • 测试集 (test):
      • 字节数: 407579
      • 示例数: 1447
  • 下载大小: 29615550
  • 数据集大小: 48230137

配置二:西班牙语到葡萄牙语 (es-pt)

  • 特征:
    • 翻译 (translation)
      • 语言对: 西班牙语, 葡萄牙语
  • 分割:
    • 训练集 (train):
      • 字节数: 47480897
      • 示例数: 158197
    • 验证集 (validation):
      • 字节数: 377101
      • 示例数: 1302
    • 测试集 (test):
      • 字节数: 400915
      • 示例数: 1379
  • 下载大小: 29829573
  • 数据集大小: 48258913

数据文件路径

英语到葡萄牙语 (en-pt)

  • 训练集: en-pt/train-*
  • 验证集: en-pt/validation-*
  • 测试集: en-pt/test-*

西班牙语到葡萄牙语 (es-pt)

  • 训练集: es-pt/train-*
  • 验证集: es-pt/validation-*
  • 测试集: es-pt/test-*
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作