liaad/PTradutor
收藏Hugging Face2024-07-21 更新2024-06-12 收录
下载链接:
https://hf-mirror.com/datasets/liaad/PTradutor
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含三个不同的配置:clean、raw和superclean。每个配置都包含训练集和验证集,特征包括索引(idx)、来源(source)、领域(domain)、葡萄牙语文本(pt)和英语文本(en)。数据集的大小、下载大小以及每个分割的字节数和示例数也被详细列出。
The dataset includes three different configurations: clean, raw, and superclean. Each configuration contains training and validation sets, with features including index (idx), source, domain, Portuguese text (pt), and English text (en). The size of the dataset, download size, and the number of bytes and examples for each split are also detailed.
提供机构:
liaad
原始信息汇总
数据集概述
配置信息
配置一:clean
-
特征信息:
- idx: int64
- source: string
- domain: string
- pt: string
- en: string
-
数据分割:
- 训练集:
- 数据量:3263624个样本
- 大小:2384846103.0452805字节
- 测试集:
- 数据量:829个样本
- 大小:427762.06534422404字节
- 训练集:
-
下载与数据集大小:
- 下载大小:1684349564字节
- 数据集大小:2385273865.110625字节
配置二:raw
-
特征信息:
- idx: int64
- source: string
- domain: string
- pt: string
- en: string
-
数据分割:
- 训练集:
- 数据量:3944464个样本
- 大小:2969089388字节
- 测试集:
- 数据量:857个样本
- 大小:442496字节
- 训练集:
-
下载与数据集大小:
- 下载大小:1937264603字节
- 数据集大小:2969531884字节
数据文件路径
配置一:clean
- 训练集路径:clean/train-*
- 测试集路径:clean/test-*
配置二:raw
- 训练集路径:raw/train-*
- 测试集路径:raw/test-*



