UFRGS/brwac
收藏Hugging Face2024-01-18 更新2024-05-25 收录
下载链接:
https://hf-mirror.com/datasets/UFRGS/brwac
下载链接
链接失效反馈官方服务:
资源简介:
BrWaC(巴西葡萄牙语网络语料库)是一个遵循Wacky框架构建的大型语料库,主要用于学术研究。该语料库的当前版本发布于2017年1月,包含353万份文档,26.8亿个标记和579万个类型。数据集格式包括文档ID、标题、URI和文本内容,文本内容由段落组成,每个段落包含多个句子。数据集仅包含训练集,大小为3530796个样本。
提供机构:
UFRGS
原始信息汇总
数据集概述
数据集名称
- 名称: BrWaC
- 别名: Brazilian Portuguese Web as Corpus
数据集基本信息
- 语言: 葡萄牙语 (pt)
- 许可证: 未知
- 多语言性: 单语种
- 大小: 1M<n<10M
- 源数据集: 原始数据
- 任务类别: 文本生成, 填充掩码
- 任务ID: 语言建模, 掩码语言建模
- 论文代码ID: brwac
数据集结构
- 数据实例: 包含文档ID, 标题, URI, 以及文本内容(由段落组成的序列)
- 数据字段:
doc_id: 字符串title: 字符串uri: 字符串text: 序列,包含名为paragraphs的序列,类型为字符串
- 数据分割:
train: 3530796个样本, 总字节数为18828421452
数据集创建
- 语言创建者: 发现
- 注释创建者: 无注释
- 下载大小: 0
- 数据集大小: 18828421452
附加信息
-
引用信息:
@inproceedings{wagner2018brwac, title={The brwac corpus: A new open resource for brazilian portuguese}, author={Wagner Filho, Jorge A and Wilkens, Rodrigo and Idiart, Marco and Villavicencio, Aline}, booktitle={Proceedings of the Eleventh International Conference on Language Resources and Evaluation (LREC 2018)}, year={2018} }
-
贡献者: @jonatasgrosman



