five

chenuneris/news-brazillian-clean

收藏
Hugging Face2023-10-13 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/chenuneris/news-brazillian-clean
下载链接
链接失效反馈
官方服务:
资源简介:
--- license: apache-2.0 --- Este dataset é composto pelos artigos encontrados nos seguintes portais de notícias: - <a href="https://anovademocracia.com.br">A Nova Democracia</a> - <a href="https://averdade.org.br">A verdade</a> - <a href="https://www.brasildefato.com.br">Brasil de fato</a> - <a href="https://mst.org.br/conteudo/noticias">Jornal MST</a> - <a href="https://operamundi.uol.com.br">Opera Mundi</a> - <a href="https://revistaopera.com.br">Revista Opera</a> Cada pasta dentro do arquivo "artigos-extraidos.zip" contém os artigos em sí, porém não limpos. O arquivo "br-news-prototype-dataset.json" é um json contendo todos os artigos concatenados e separados em chunks que foram utilizados para treinar a ultima versão do modelo "br-news-prototype" criada no dia 16/09/2023.
提供机构:
chenuneris
原始信息汇总

数据集概述

数据来源

该数据集包含以下新闻门户的文章:

  • A Nova Democracia
  • A verdade
  • Brasil de fato
  • Jornal MST
  • Opera Mundi
  • Revista Opera

数据文件

  • artigos-extraidos.zip: 包含各个新闻文章的文件夹,但未经过清洗。
  • br-news-prototype-dataset.json: 包含所有拼接并分块的文章,用于训练2023年9月16日创建的"br-news-prototype"模型。
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作