thegoodfellas/blogset-br

Name: thegoodfellas/blogset-br
Creator: thegoodfellas
Published: 2023-02-21 21:53:47
License: 暂无描述

Hugging Face2023-02-21 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/thegoodfellas/blogset-br

下载链接

链接失效反馈

官方服务：

资源简介：

Blogset BR数据集由PUC-RS的自然语言处理小组创建，主要用于语言模型的训练。数据集的语言为巴西葡萄牙语，大小在1M到10M之间。数据集的创建过程包括从原始数据中选择特定列（第4列，即文本列），并进行了一系列的文本清理和调整，以确保每行文本不超过512个单词。数据集的许可证为Apache V2。

提供机构：

thegoodfellas

原始信息汇总

数据集概述

基本信息

许可证: Apache-2.0
语言: 葡萄牙语（巴西）
数据集大小: 1M<n<10M

数据集详情

名称: Blogset BR
创建者: 自然语言处理小组，PUC-RS
主页: https://www.inf.pucrs.br/linatural/wordpress/recursos-e-ferramentas/blogset-br/
联系信息: 官方网站

数据集用途

支持任务: 语言模型训练

数据收集与标准化

初始数据收集和标准化详情: 可在官方网站找到相关信息。

贡献

贡献者: 自然语言处理小组，PUC-RS
格式: Huggingface格式
数据处理细节:
1. 仅使用与文本相关的列（第4列）。
2. 应用了一系列调整以清理文本。
3. 每行文本限制在512个单词内。

5,000+

优质数据集

54 个

任务类型

进入经典数据集