tj-solergibert/t5-Europarl-en
收藏Hugging Face2023-02-15 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/tj-solergibert/t5-Europarl-en
下载链接
链接失效反馈官方服务:
资源简介:
---
dataset_info:
features:
- name: dest_lang
dtype:
class_label:
names:
'0': de
'1': en
'2': es
'3': fr
'4': it
'5': nl
'6': pl
'7': pt
'8': ro
- name: input_ids
sequence: int32
- name: attention_mask
sequence: int8
- name: labels
sequence: int64
splits:
- name: train
num_bytes: 417227830
num_examples: 561067
- name: test
num_bytes: 61238209
num_examples: 80606
- name: valid
num_bytes: 57930051
num_examples: 76911
download_size: 125777513
dataset_size: 536396090
---
# Dataset Card for "t5-Europarl-en"
[More Information needed](https://github.com/huggingface/datasets/blob/main/CONTRIBUTING.md#how-to-contribute-to-the-dataset-cards)
提供机构:
tj-solergibert
原始信息汇总
数据集概述
数据集特征
- dest_lang: 目标语言代码,类别标签包括:
- 0: de(德语)
- 1: en(英语)
- 2: es(西班牙语)
- 3: fr(法语)
- 4: it(意大利语)
- 5: nl(荷兰语)
- 6: pl(波兰语)
- 7: pt(葡萄牙语)
- 8: ro(罗马尼亚语)
- input_ids: 输入ID序列,数据类型为int32。
- attention_mask: 注意力掩码序列,数据类型为int8。
- labels: 标签序列,数据类型为int64。
数据集分割
- train: 训练集,包含561067个样本,总大小为417227830字节。
- test: 测试集,包含80606个样本,总大小为61238209字节。
- valid: 验证集,包含76911个样本,总大小为57930051字节。
数据集大小
- 下载大小: 125777513字节。
- 数据集总大小: 536396090字节。



