dominguesm/brwac
收藏Hugging Face2023-01-08 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/dominguesm/brwac
下载链接
链接失效反馈官方服务:
资源简介:
BrWaC(巴西葡萄牙语网络语料库)是一个遵循Wacky框架构建的大型语料库,主要用于学术研究。该语料库的当前版本发布于2017年1月,包含353万份文档,26.8亿个标记和579万个类型。数据集的结构包括文档ID、标题、URI和文本段落。数据集仅包含训练集,大小为3530796个样本。
BrWaC (Brazilian Portuguese Web Corpus) is a large-scale corpus constructed following the Wacky framework, primarily designed for academic research. Its current version was released in January 2017, comprising 3.53 million documents, 2.68 billion tokens, and 5.79 million types. The dataset structure includes document ID, title, URI, and text paragraphs. This dataset only contains a training set, with a total of 3,530,796 samples.
提供机构:
dominguesm
原始信息汇总
数据集概述
数据集名称
- 名称: BrWaC
- 别名: Brazilian Portuguese Web as Corpus
数据集属性
- 语言: 葡萄牙语 (pt)
- 许可证: 未知
- 多语言性: 单语种
- 大小: 1M<n<10M
- 源数据集: 原始数据
- 任务类别: 文本生成, 填充掩码
- 任务ID: 语言建模, 掩码语言建模
- 论文代码ID: brwac
数据集结构
- 特征:
doc_id: 字符串title: 字符串uri: 字符串text: 序列,包含paragraphs,每个paragraphs是一个字符串序列
- 数据分割:
train: 3530796个样本,总字节数18828412956
数据集下载和大小
- 下载大小: 11616550261字节
- 数据集大小: 18828412956字节



