thegoodfellas/brwac_tiny
收藏Hugging Face2022-10-10 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/thegoodfellas/brwac_tiny
下载链接
链接失效反馈官方服务:
资源简介:
BrWaC(巴西葡萄牙语网络语料库)是一个遵循Wacky框架构建的大型语料库,主要用于学术研究。当前版本发布于2017年1月,包含353万个文档,26.8亿个标记和579万个类型。请注意,此资源仅用于学术研究目的,不得用于任何商业应用。数据集支持的任务是填充掩码任务,语言为巴西葡萄牙语。数据集是从公共网站提取的,许可为MIT。
提供机构:
thegoodfellas
原始信息汇总
数据集概述
- 名称: BrWac
- 语言: 巴西葡萄牙语
- 许可证: MIT
- 多语言性: 单语种
- 大小: 10M<n<100M
- 来源: 原始数据
- 标签: ufrgs, nlp, brazil
- 任务类别: fill-mask
- 任务ID: masked-language-modeling
数据集描述
- 摘要: BrWaC(巴西葡萄牙语网络作为语料库)是一个大型语料库,基于Wacky框架构建,于2017年1月发布,包含353万份文档,26.8亿个标记和579万个类型。此资源仅用于学术研究目的。
- 支持任务: 主要用于fill-mask任务。
- 语言: 巴西葡萄牙语
数据集创建
-
源数据: 所有数据从公共网站提取。
-
许可证信息: MIT
-
引用信息:
@inproceedings{wagner2018brwac, title={The brwac corpus: A new open resource for brazilian portuguese}, author={Wagner Filho, Jorge A and Wilkens, Rodrigo and Idiart, Marco and Villavicencio, Aline}, booktitle={Proceedings of the Eleventh International Conference on Language Resources and Evaluation (LREC 2018)}, year={2018} }
贡献者
- 感谢@the-good-fellas为该数据集添加hf格式。



