KaiNylund/WMT-year-splits
收藏Hugging Face2024-02-12 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/KaiNylund/WMT-year-splits
下载链接
链接失效反馈官方服务:
资源简介:
---
dataset_info:
features:
- name: text
dtype: string
splits:
- name: 2012_train
num_bytes: 200226328
num_examples: 74030
- name: 2012_test
num_bytes: 10013398
num_examples: 3702
- name: 2013_train
num_bytes: 200208976
num_examples: 69560
- name: 2013_test
num_bytes: 10010872
num_examples: 3452
- name: 2014_train
num_bytes: 200195660
num_examples: 65066
- name: 2014_test
num_bytes: 10009737
num_examples: 3178
- name: 2015_train
num_bytes: 200191525
num_examples: 63260
- name: 2015_test
num_bytes: 10013285
num_examples: 3193
- name: 2016_train
num_bytes: 200182567
num_examples: 60204
- name: 2016_test
num_bytes: 10009524
num_examples: 3068
- name: 2017_train
num_bytes: 200161313
num_examples: 53757
- name: 2017_test
num_bytes: 10009727
num_examples: 2712
- name: 2018_train
num_bytes: 200168589
num_examples: 55074
- name: 2018_test
num_bytes: 10008584
num_examples: 2780
- name: 2019_train
num_bytes: 200186312
num_examples: 60742
- name: 2019_test
num_bytes: 10015645
num_examples: 3082
- name: 2020_train
num_bytes: 200181700
num_examples: 60036
- name: 2020_test
num_bytes: 10009206
num_examples: 2932
- name: 2021_train
num_bytes: 200186604
num_examples: 61717
- name: 2021_test
num_bytes: 10021254
num_examples: 3001
download_size: 1325315435
dataset_size: 2102010806
license: cc0-1.0
---
# Dataset Card for "WMT-year-splits"
[More Information needed](https://github.com/huggingface/datasets/blob/main/CONTRIBUTING.md#how-to-contribute-to-the-dataset-cards)
数据集信息:
特征:
- 名称:text,数据类型:字符串
数据集划分:
- 名称:2012_train,字节数:200226328,样本数:74030
- 名称:2012_test,字节数:10013398,样本数:3702
- 名称:2013_train,字节数:200208976,样本数:69560
- 名称:2013_test,字节数:10010872,样本数:3452
- 名称:2014_train,字节数:200195660,样本数:65066
- 名称:2014_test,字节数:10009737,样本数:3178
- 名称:2015_train,字节数:200191525,样本数:63260
- 名称:2015_test,字节数:10013285,样本数:3193
- 名称:2016_train,字节数:200182567,样本数:60204
- 名称:2016_test,字节数:10009524,样本数:3068
- 名称:2017_train,字节数:200161313,样本数:53757
- 名称:2017_test,字节数:10009727,样本数:2712
- 名称:2018_train,字节数:200168589,样本数:55074
- 名称:2018_test,字节数:10008584,样本数:2780
- 名称:2019_train,字节数:200186312,样本数:60742
- 名称:2019_test,字节数:10015645,样本数:3082
- 名称:2020_train,字节数:200181700,样本数:60036
- 名称:2020_test,字节数:10009206,样本数:2932
- 名称:2021_train,字节数:200186604,样本数:61717
- 名称:2021_test,字节数:10021254,样本数:3001
下载大小:1325315435 字节
数据集总大小:2102010806 字节
许可证:CC0 1.0
---
# "WMT年度划分"数据集卡片
[需补充更多信息](https://github.com/huggingface/datasets/blob/main/CONTRIBUTING.md#how-to-contribute-to-the-dataset-cards)
提供机构:
KaiNylund
原始信息汇总
数据集概述
数据集信息
- 特征:
- 名称: text
- 数据类型: string
数据分割
- 2012年:
- 训练集:
- 字节数: 200226328
- 样本数: 74030
- 测试集:
- 字节数: 10013398
- 样本数: 3702
- 训练集:
- 2013年:
- 训练集:
- 字节数: 200208976
- 样本数: 69560
- 测试集:
- 字节数: 10010872
- 样本数: 3452
- 训练集:
- 2014年:
- 训练集:
- 字节数: 200195660
- 样本数: 65066
- 测试集:
- 字节数: 10009737
- 样本数: 3178
- 训练集:
- 2015年:
- 训练集:
- 字节数: 200191525
- 样本数: 63260
- 测试集:
- 字节数: 10013285
- 样本数: 3193
- 训练集:
- 2016年:
- 训练集:
- 字节数: 200182567
- 样本数: 60204
- 测试集:
- 字节数: 10009524
- 样本数: 3068
- 训练集:
- 2017年:
- 训练集:
- 字节数: 200161313
- 样本数: 53757
- 测试集:
- 字节数: 10009727
- 样本数: 2712
- 训练集:
- 2018年:
- 训练集:
- 字节数: 200168589
- 样本数: 55074
- 测试集:
- 字节数: 10008584
- 样本数: 2780
- 训练集:
- 2019年:
- 训练集:
- 字节数: 200186312
- 样本数: 60742
- 测试集:
- 字节数: 10015645
- 样本数: 3082
- 训练集:
- 2020年:
- 训练集:
- 字节数: 200181700
- 样本数: 60036
- 测试集:
- 字节数: 10009206
- 样本数: 2932
- 训练集:
- 2021年:
- 训练集:
- 字节数: 200186604
- 样本数: 61717
- 测试集:
- 字节数: 10021254
- 样本数: 3001
- 训练集:
数据集大小
- 下载大小: 1325315435 字节
- 数据集大小: 2102010806 字节
许可证
- 许可证: cc0-1.0



