chenuneris/news-brazillian-clean
收藏Hugging Face2023-10-13 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/chenuneris/news-brazillian-clean
下载链接
链接失效反馈官方服务:
资源简介:
---
license: apache-2.0
---
Este dataset é composto pelos artigos encontrados nos seguintes portais de notícias:
- <a href="https://anovademocracia.com.br">A Nova Democracia</a>
- <a href="https://averdade.org.br">A verdade</a>
- <a href="https://www.brasildefato.com.br">Brasil de fato</a>
- <a href="https://mst.org.br/conteudo/noticias">Jornal MST</a>
- <a href="https://operamundi.uol.com.br">Opera Mundi</a>
- <a href="https://revistaopera.com.br">Revista Opera</a>
Cada pasta dentro do arquivo "artigos-extraidos.zip" contém os artigos em sí, porém não limpos.
O arquivo "br-news-prototype-dataset.json" é um json contendo todos os artigos concatenados e separados em chunks que foram utilizados para treinar a ultima versão do modelo "br-news-prototype" criada no dia 16/09/2023.
提供机构:
chenuneris
原始信息汇总
数据集概述
数据来源
该数据集包含以下新闻门户的文章:
- A Nova Democracia
- A verdade
- Brasil de fato
- Jornal MST
- Opera Mundi
- Revista Opera
数据文件
- artigos-extraidos.zip: 包含各个新闻文章的文件夹,但未经过清洗。
- br-news-prototype-dataset.json: 包含所有拼接并分块的文章,用于训练2023年9月16日创建的"br-news-prototype"模型。



