five

KaiNylund/WMT-year-splits

收藏
Hugging Face2024-02-12 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/KaiNylund/WMT-year-splits
下载链接
链接失效反馈
官方服务:
资源简介:
--- dataset_info: features: - name: text dtype: string splits: - name: 2012_train num_bytes: 200226328 num_examples: 74030 - name: 2012_test num_bytes: 10013398 num_examples: 3702 - name: 2013_train num_bytes: 200208976 num_examples: 69560 - name: 2013_test num_bytes: 10010872 num_examples: 3452 - name: 2014_train num_bytes: 200195660 num_examples: 65066 - name: 2014_test num_bytes: 10009737 num_examples: 3178 - name: 2015_train num_bytes: 200191525 num_examples: 63260 - name: 2015_test num_bytes: 10013285 num_examples: 3193 - name: 2016_train num_bytes: 200182567 num_examples: 60204 - name: 2016_test num_bytes: 10009524 num_examples: 3068 - name: 2017_train num_bytes: 200161313 num_examples: 53757 - name: 2017_test num_bytes: 10009727 num_examples: 2712 - name: 2018_train num_bytes: 200168589 num_examples: 55074 - name: 2018_test num_bytes: 10008584 num_examples: 2780 - name: 2019_train num_bytes: 200186312 num_examples: 60742 - name: 2019_test num_bytes: 10015645 num_examples: 3082 - name: 2020_train num_bytes: 200181700 num_examples: 60036 - name: 2020_test num_bytes: 10009206 num_examples: 2932 - name: 2021_train num_bytes: 200186604 num_examples: 61717 - name: 2021_test num_bytes: 10021254 num_examples: 3001 download_size: 1325315435 dataset_size: 2102010806 license: cc0-1.0 --- # Dataset Card for "WMT-year-splits" [More Information needed](https://github.com/huggingface/datasets/blob/main/CONTRIBUTING.md#how-to-contribute-to-the-dataset-cards)

数据集信息: 特征: - 名称:text,数据类型:字符串 数据集划分: - 名称:2012_train,字节数:200226328,样本数:74030 - 名称:2012_test,字节数:10013398,样本数:3702 - 名称:2013_train,字节数:200208976,样本数:69560 - 名称:2013_test,字节数:10010872,样本数:3452 - 名称:2014_train,字节数:200195660,样本数:65066 - 名称:2014_test,字节数:10009737,样本数:3178 - 名称:2015_train,字节数:200191525,样本数:63260 - 名称:2015_test,字节数:10013285,样本数:3193 - 名称:2016_train,字节数:200182567,样本数:60204 - 名称:2016_test,字节数:10009524,样本数:3068 - 名称:2017_train,字节数:200161313,样本数:53757 - 名称:2017_test,字节数:10009727,样本数:2712 - 名称:2018_train,字节数:200168589,样本数:55074 - 名称:2018_test,字节数:10008584,样本数:2780 - 名称:2019_train,字节数:200186312,样本数:60742 - 名称:2019_test,字节数:10015645,样本数:3082 - 名称:2020_train,字节数:200181700,样本数:60036 - 名称:2020_test,字节数:10009206,样本数:2932 - 名称:2021_train,字节数:200186604,样本数:61717 - 名称:2021_test,字节数:10021254,样本数:3001 下载大小:1325315435 字节 数据集总大小:2102010806 字节 许可证:CC0 1.0 --- # "WMT年度划分"数据集卡片 [需补充更多信息](https://github.com/huggingface/datasets/blob/main/CONTRIBUTING.md#how-to-contribute-to-the-dataset-cards)
提供机构:
KaiNylund
原始信息汇总

数据集概述

数据集信息

  • 特征:
    • 名称: text
    • 数据类型: string

数据分割

  • 2012年:
    • 训练集:
      • 字节数: 200226328
      • 样本数: 74030
    • 测试集:
      • 字节数: 10013398
      • 样本数: 3702
  • 2013年:
    • 训练集:
      • 字节数: 200208976
      • 样本数: 69560
    • 测试集:
      • 字节数: 10010872
      • 样本数: 3452
  • 2014年:
    • 训练集:
      • 字节数: 200195660
      • 样本数: 65066
    • 测试集:
      • 字节数: 10009737
      • 样本数: 3178
  • 2015年:
    • 训练集:
      • 字节数: 200191525
      • 样本数: 63260
    • 测试集:
      • 字节数: 10013285
      • 样本数: 3193
  • 2016年:
    • 训练集:
      • 字节数: 200182567
      • 样本数: 60204
    • 测试集:
      • 字节数: 10009524
      • 样本数: 3068
  • 2017年:
    • 训练集:
      • 字节数: 200161313
      • 样本数: 53757
    • 测试集:
      • 字节数: 10009727
      • 样本数: 2712
  • 2018年:
    • 训练集:
      • 字节数: 200168589
      • 样本数: 55074
    • 测试集:
      • 字节数: 10008584
      • 样本数: 2780
  • 2019年:
    • 训练集:
      • 字节数: 200186312
      • 样本数: 60742
    • 测试集:
      • 字节数: 10015645
      • 样本数: 3082
  • 2020年:
    • 训练集:
      • 字节数: 200181700
      • 样本数: 60036
    • 测试集:
      • 字节数: 10009206
      • 样本数: 2932
  • 2021年:
    • 训练集:
      • 字节数: 200186604
      • 样本数: 61717
    • 测试集:
      • 字节数: 10021254
      • 样本数: 3001

数据集大小

  • 下载大小: 1325315435 字节
  • 数据集大小: 2102010806 字节

许可证

  • 许可证: cc0-1.0
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作