five

dominguesm/brwac

收藏
Hugging Face2023-01-08 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/dominguesm/brwac
下载链接
链接失效反馈
官方服务:
资源简介:
BrWaC(巴西葡萄牙语网络语料库)是一个遵循Wacky框架构建的大型语料库,主要用于学术研究。该语料库的当前版本发布于2017年1月,包含353万份文档,26.8亿个标记和579万个类型。数据集的结构包括文档ID、标题、URI和文本段落。数据集仅包含训练集,大小为3530796个样本。

BrWaC (Brazilian Portuguese Web Corpus) is a large-scale corpus constructed following the Wacky framework, primarily designed for academic research. Its current version was released in January 2017, comprising 3.53 million documents, 2.68 billion tokens, and 5.79 million types. The dataset structure includes document ID, title, URI, and text paragraphs. This dataset only contains a training set, with a total of 3,530,796 samples.
提供机构:
dominguesm
原始信息汇总

数据集概述

数据集名称

  • 名称: BrWaC
  • 别名: Brazilian Portuguese Web as Corpus

数据集属性

  • 语言: 葡萄牙语 (pt)
  • 许可证: 未知
  • 多语言性: 单语种
  • 大小: 1M<n<10M
  • 源数据集: 原始数据
  • 任务类别: 文本生成, 填充掩码
  • 任务ID: 语言建模, 掩码语言建模
  • 论文代码ID: brwac

数据集结构

  • 特征:
    • doc_id: 字符串
    • title: 字符串
    • uri: 字符串
    • text: 序列,包含paragraphs,每个paragraphs是一个字符串序列
  • 数据分割:
    • train: 3530796个样本,总字节数18828412956

数据集下载和大小

  • 下载大小: 11616550261字节
  • 数据集大小: 18828412956字节
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作