thegoodfellas/blogset-br
收藏Hugging Face2023-02-21 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/thegoodfellas/blogset-br
下载链接
链接失效反馈官方服务:
资源简介:
Blogset BR数据集由PUC-RS的自然语言处理小组创建,主要用于语言模型的训练。数据集的语言为巴西葡萄牙语,大小在1M到10M之间。数据集的创建过程包括从原始数据中选择特定列(第4列,即文本列),并进行了一系列的文本清理和调整,以确保每行文本不超过512个单词。数据集的许可证为Apache V2。
提供机构:
thegoodfellas
原始信息汇总
数据集概述
基本信息
- 许可证: Apache-2.0
- 语言: 葡萄牙语(巴西)
- 数据集大小: 1M<n<10M
数据集详情
- 名称: Blogset BR
- 创建者: 自然语言处理小组,PUC-RS
- 主页: https://www.inf.pucrs.br/linatural/wordpress/recursos-e-ferramentas/blogset-br/
- 联系信息: 官方网站
数据集用途
- 支持任务: 语言模型训练
数据收集与标准化
- 初始数据收集和标准化详情: 可在官方网站找到相关信息。
贡献
- 贡献者: 自然语言处理小组,PUC-RS
- 格式: Huggingface格式
- 数据处理细节:
- 仅使用与文本相关的列(第4列)。
- 应用了一系列调整以清理文本。
- 每行文本限制在512个单词内。



