five

liaad/PTradutor

收藏
Hugging Face2024-07-21 更新2024-06-12 收录
下载链接:
https://hf-mirror.com/datasets/liaad/PTradutor
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集包含三个不同的配置:clean、raw和superclean。每个配置都包含训练集和验证集,特征包括索引(idx)、来源(source)、领域(domain)、葡萄牙语文本(pt)和英语文本(en)。数据集的大小、下载大小以及每个分割的字节数和示例数也被详细列出。

The dataset includes three different configurations: clean, raw, and superclean. Each configuration contains training and validation sets, with features including index (idx), source, domain, Portuguese text (pt), and English text (en). The size of the dataset, download size, and the number of bytes and examples for each split are also detailed.
提供机构:
liaad
原始信息汇总

数据集概述

配置信息

配置一:clean

  • 特征信息:

    • idx: int64
    • source: string
    • domain: string
    • pt: string
    • en: string
  • 数据分割:

    • 训练集:
      • 数据量:3263624个样本
      • 大小:2384846103.0452805字节
    • 测试集:
      • 数据量:829个样本
      • 大小:427762.06534422404字节
  • 下载与数据集大小:

    • 下载大小:1684349564字节
    • 数据集大小:2385273865.110625字节

配置二:raw

  • 特征信息:

    • idx: int64
    • source: string
    • domain: string
    • pt: string
    • en: string
  • 数据分割:

    • 训练集:
      • 数据量:3944464个样本
      • 大小:2969089388字节
    • 测试集:
      • 数据量:857个样本
      • 大小:442496字节
  • 下载与数据集大小:

    • 下载大小:1937264603字节
    • 数据集大小:2969531884字节

数据文件路径

配置一:clean

  • 训练集路径:clean/train-*
  • 测试集路径:clean/test-*

配置二:raw

  • 训练集路径:raw/train-*
  • 测试集路径:raw/test-*
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作