five

Andrianos/clsd_wmt19_21

收藏
Hugging Face2024-05-06 更新2024-06-12 收录
下载链接:
https://hf-mirror.com/datasets/Andrianos/clsd_wmt19_21
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集包含多个配置,主要涉及德语(de)和法语(fr)之间的翻译任务。每个配置包含源语言(Source)、目标语言(Target)以及多个目标语言的变体(TargetAdv1到TargetAdv4)和语言代码(lang)等特征。数据集仅包含测试集(test),每个配置的测试集大小和样本数量也有所不同。

The dataset includes multiple configurations for translation tasks between German and French, including versions wmt19 and wmt21. Each configuration contains source language text, target language text, and multiple improved versions of the target language. The dataset only includes the test split, with detailed data sizes and sample counts provided.
提供机构:
Andrianos
原始信息汇总

数据集概述

数据集配置

  • wmt19.de.fr

    • 特征:
      • Source: 字符串
      • Target: 字符串
      • TargetAdv1: 字符串
      • TargetAdv2: 字符串
      • TargetAdv3: 字符串
      • TargetAdv4: 字符串
      • lang: 字符串
    • 分割:
      • 测试集:
        • 字节数: 1398091
        • 示例数: 1473
    • 下载大小: 896261
    • 数据集大小: 1398091
  • wmt19.fr.de

    • 特征:
      • Source: 字符串
      • Target: 字符串
      • TargetAdv1: 字符串
      • TargetAdv2: 字符串
      • TargetAdv3: 字符串
      • TargetAdv4: 字符串
      • lang: 字符串
    • 分割:
      • 测试集:
        • 字节数: 1454721
        • 示例数: 1473
    • 下载大小: 913141
    • 数据集大小: 1454721
  • wmt21.de.fr

    • 特征:
      • Source: 字符串
      • Target: 字符串
      • TargetAdv1: 字符串
      • TargetAdv2: 字符串
      • TargetAdv3: 字符串
      • TargetAdv4: 字符串
      • lang: 字符串
    • 分割:
      • 测试集:
        • 字节数: 999137
        • 示例数: 893
    • 下载大小: 630523
    • 数据集大小: 999137
  • wmt21.fr.de

    • 特征:
      • Source: 字符串
      • Target: 字符串
      • TargetAdv1: 字符串
      • TargetAdv2: 字符串
      • TargetAdv3: 字符串
      • TargetAdv4: 字符串
      • lang: 字符串
    • 分割:
      • 测试集:
        • 字节数: 1000487
        • 示例数: 893
    • 下载大小: 628979
    • 数据集大小: 1000487

数据文件路径

  • wmt19.de.fr:
    • 测试集路径: wmt19.de.fr/test-*
  • wmt19.fr.de:
    • 测试集路径: wmt19.fr.de/test-*
  • wmt21.de.fr:
    • 测试集路径: wmt21.de.fr/test-*
  • wmt21.fr.de:
    • 测试集路径: wmt21.fr.de/test-*

许可证

  • cc-by-4.0
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作