five

thegoodfellas/brwac_tiny

收藏
Hugging Face2022-10-10 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/thegoodfellas/brwac_tiny
下载链接
链接失效反馈
官方服务:
资源简介:
BrWaC(巴西葡萄牙语网络语料库)是一个遵循Wacky框架构建的大型语料库,主要用于学术研究。当前版本发布于2017年1月,包含353万个文档,26.8亿个标记和579万个类型。请注意,此资源仅用于学术研究目的,不得用于任何商业应用。数据集支持的任务是填充掩码任务,语言为巴西葡萄牙语。数据集是从公共网站提取的,许可为MIT。
提供机构:
thegoodfellas
原始信息汇总

数据集概述

  • 名称: BrWac
  • 语言: 巴西葡萄牙语
  • 许可证: MIT
  • 多语言性: 单语种
  • 大小: 10M<n<100M
  • 来源: 原始数据
  • 标签: ufrgs, nlp, brazil
  • 任务类别: fill-mask
  • 任务ID: masked-language-modeling

数据集描述

  • 摘要: BrWaC(巴西葡萄牙语网络作为语料库)是一个大型语料库,基于Wacky框架构建,于2017年1月发布,包含353万份文档,26.8亿个标记和579万个类型。此资源仅用于学术研究目的。
  • 支持任务: 主要用于fill-mask任务。
  • 语言: 巴西葡萄牙语

数据集创建

  • 源数据: 所有数据从公共网站提取。

  • 许可证信息: MIT

  • 引用信息:

    @inproceedings{wagner2018brwac, title={The brwac corpus: A new open resource for brazilian portuguese}, author={Wagner Filho, Jorge A and Wilkens, Rodrigo and Idiart, Marco and Villavicencio, Aline}, booktitle={Proceedings of the Eleventh International Conference on Language Resources and Evaluation (LREC 2018)}, year={2018} }

贡献者

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作