five

joaosanches/brazilian_european_portuguese_dataset

收藏
Hugging Face2024-05-11 更新2024-06-12 收录
下载链接:
https://hf-mirror.com/datasets/joaosanches/brazilian_european_portuguese_dataset
下载链接
链接失效反馈
官方服务:
资源简介:
--- dataset_info: features: - name: pt dtype: string - name: pt-br dtype: string splits: - name: validation num_bytes: 1785639 num_examples: 12698 - name: teste num_bytes: 1742751 num_examples: 12698 - name: train_ted num_bytes: 26649615 num_examples: 126984 - name: train_subs num_bytes: 9879367 num_examples: 126984 - name: train_merged num_bytes: 18209681 num_examples: 126984 download_size: 40674391 dataset_size: 58267053 configs: - config_name: default data_files: - split: validation path: data/validation-* - split: teste path: data/teste-* - split: train_ted path: data/train_ted-* - split: train_subs path: data/train_subs-* - split: train_merged path: data/train_merged-* ---
提供机构:
joaosanches
原始信息汇总

数据集概述

特征信息

  • pt:数据类型为字符串。
  • pt-br:数据类型为字符串。

数据分割

  • validation:包含12698个样本,占用1785639字节。
  • teste:包含12698个样本,占用1742751字节。
  • train_ted:包含126984个样本,占用26649615字节。
  • train_subs:包含126984个样本,占用9879367字节。
  • train_merged:包含126984个样本,占用18209681字节。

数据集大小

  • 下载大小:40674391字节。
  • 数据集总大小:58267053字节。

配置信息

  • config_name: default
    • validation:路径为data/validation-*
    • teste:路径为data/teste-*
    • train_ted:路径为data/train_ted-*
    • train_subs:路径为data/train_subs-*
    • train_merged:路径为data/train_merged-*
二维码
社区交流群
二维码
科研交流群
商业服务