five

thegoodfellas/blogset-br

收藏
Hugging Face2023-02-21 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/thegoodfellas/blogset-br
下载链接
链接失效反馈
官方服务:
资源简介:
Blogset BR数据集由PUC-RS的自然语言处理小组创建,主要用于语言模型的训练。数据集的语言为巴西葡萄牙语,大小在1M到10M之间。数据集的创建过程包括从原始数据中选择特定列(第4列,即文本列),并进行了一系列的文本清理和调整,以确保每行文本不超过512个单词。数据集的许可证为Apache V2。
提供机构:
thegoodfellas
原始信息汇总

数据集概述

基本信息

  • 许可证: Apache-2.0
  • 语言: 葡萄牙语(巴西)
  • 数据集大小: 1M<n<10M

数据集详情

  • 名称: Blogset BR
  • 创建者: 自然语言处理小组,PUC-RS
  • 主页: https://www.inf.pucrs.br/linatural/wordpress/recursos-e-ferramentas/blogset-br/
  • 联系信息: 官方网站

数据集用途

  • 支持任务: 语言模型训练

数据收集与标准化

  • 初始数据收集和标准化详情: 可在官方网站找到相关信息。

贡献

  • 贡献者: 自然语言处理小组,PUC-RS
  • 格式: Huggingface格式
  • 数据处理细节:
    1. 仅使用与文本相关的列(第4列)。
    2. 应用了一系列调整以清理文本。
    3. 每行文本限制在512个单词内。
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作