five

haoranxu/ALMA-Human-Parallel

收藏
Hugging Face2024-01-24 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/haoranxu/ALMA-Human-Parallel
下载链接
链接失效反馈
官方服务:
资源简介:
ALMA-Human-Parallel数据集是一个由人工撰写的平行语料库,用于ALMA翻译模型的研究。该数据集包含多个语言对的翻译数据,如捷克语-英语(cs-en)、德语-英语(de-en)、冰岛语-英语(is-en)、俄语-英语(ru-en)和中文-英语(zh-en)。每个语言对的配置都包含翻译特征,其中包含两种语言的字符串类型数据。数据集分为训练集和验证集,部分配置仅包含训练集。

ALMA-Human-Parallel数据集是一个由人工撰写的平行语料库,用于ALMA翻译模型的研究。该数据集包含多个语言对的翻译数据,如捷克语-英语(cs-en)、德语-英语(de-en)、冰岛语-英语(is-en)、俄语-英语(ru-en)和中文-英语(zh-en)。每个语言对的配置都包含翻译特征,其中包含两种语言的字符串类型数据。数据集分为训练集和验证集,部分配置仅包含训练集。
提供机构:
haoranxu
原始信息汇总

数据集概述

配置名称:cs-en

  • 特征:
    • 名称: translation
    • 结构:
      • 名称: cs dtype: string
      • 名称: en dtype: string
  • 分割:
    • 名称: train
      • 字节数: 3432181
      • 样本数: 12076
    • 名称: validation
      • 字节数: 318813
      • 样本数: 1002
  • 下载大小: 0
  • 数据集大小: 3750994

配置名称:de-en

  • 特征:
    • 名称: translation
    • 结构:
      • 名称: de dtype: string
      • 名称: en dtype: string
  • 分割:
    • 名称: train
      • 字节数: 4108729
      • 样本数: 14211
    • 名称: validation
      • 字节数: 329855
      • 样本数: 1002
  • 下载大小: 0
  • 数据集大小: 4438584

配置名称:is-en

  • 特征:
    • 名称: translation
    • 结构:
      • 名称: is dtype: string
      • 名称: en dtype: string
  • 分割:
    • 名称: train
      • 字节数: 554190
      • 样本数: 2009
  • 下载大小: 0
  • 数据集大小: 554190

配置名称:ru-en

  • 特征:
    • 名称: translation
    • 结构:
      • 名称: ru dtype: string
      • 名称: en dtype: string
  • 分割:
    • 名称: train
      • 字节数: 5427552
      • 样本数: 15000
    • 名称: validation
      • 字节数: 442271
      • 样本数: 1002
  • 下载大小: 0
  • 数据集大小: 5869823

配置名称:zh-en

  • 特征:
    • 名称: translation
    • 结构:
      • 名称: zh dtype: string
      • 名称: en dtype: string
  • 分割:
    • 名称: train
      • 字节数: 4700299
      • 样本数: 15406
    • 名称: validation
      • 字节数: 285969
      • 样本数: 1002
  • 下载大小: 0
  • 数据集大小: 4986268

数据文件

  • 配置名称:cs-en
    • 分割: train
      • 路径: cs-en/train-*
    • 分割: validation
      • 路径: cs-en/validation-*
  • 配置名称:de-en
    • 分割: train
      • 路径: de-en/train-*
    • 分割: validation
      • 路径: de-en/validation-*
  • 配置名称:is-en
    • 分割: train
      • 路径: is-en/train-*
  • 配置名称:ru-en
    • 分割: train
      • 路径: ru-en/train-*
    • 分割: validation
      • 路径: ru-en/validation-*
  • 配置名称:zh-en
    • 分割: train
      • 路径: zh-en/train-*
    • 分割: validation
      • 路径: zh-en/validation-*
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作