vitorandrade/wikipedia_portugues
收藏Hugging Face2024-04-13 更新2024-06-11 收录
下载链接:
https://hf-mirror.com/datasets/vitorandrade/wikipedia_portugues
下载链接
链接失效反馈官方服务:
资源简介:
# Dataset Card para Wikipedia em Português
<h2 style='text-align: center;'> Time 1 - NLP </h2>
## Dados Gerais
- **Nome:** portuguese_wikipedia_sentences
- **Página WEB:** [portuguese_wikipedia_sentences](https://huggingface.co/datasets/jvanz/portuguese_wikipedia_sentences)
- **Repositório:** [portuguese_wikipedia_sentences](https://huggingface.co/datasets/jvanz/portuguese_wikipedia_sentences/tree/main/data)
## Resumo
Este dataset é adequado para o projeto devido à sua vasta coleção de frases em português extraídas da Wikipedia, oferecendo uma ampla gama de conhecimentos
gerais e específicos.
Contendo artigos limpos em português, cada exemplo, contém um artigo completo da Wikipedia com limpeza para remover marcações e seções indesejadas(referências, citações, etc)
Foi realizado uma [Análise Exploratória dos dados](https://github.com/CPqD/resid2023-nlp-1/blob/main/EDA_wikipedia_setences_pt.ipynb) dos arquivos, sendo eles:
> Conjunto de Treinamento: train-00000-of-00001.parquet (7.01MB);
> Conjunto de Validação: evaluation-00000-of-00001.parquet (1.17MB);
> Conjunto de Teste: test-00000-of-00001.parquet (1.18MB);
## Utilização Pretendida
<!-- Indique quais as tarefas de NLP podem utilizar este dataset. Por exemplo,
classificação de texto, reconhecimento de entidades, etc.
Nesta seção, você pode detalhar e expandir o que foi apresentado no resumo. -->
O portuguese_wikipedia_sentences no projeto vai ajudar o modelo aprender o idioma português.
## Idiomas
<!-- Indique os idiomas presentes no dataset. -->
Foi traduzida automáticamente para a Lingua Portuguesa.
## Criação
<!-- Se o dataset foi construído por você, indique a fonte dos dados usados e
descreva o processo de coleta e processamento. Se foi usado um dataset já existente,
indique a URL do dataset original. Se o dataset existente foi modificado,
descreva a modificação realizada e as ferramentas usadas. -->
Na [Análise Exploratória dos dados](https://github.com/CPqD/resid2023-nlp-1/blob/main/EDA_wikipedia_setences_pt.ipynb) realizada, verificou-se que os 3 arquivos parquet, para treinamento, teste e validação, possuem, respectivamente, 63.387, 10.565 e 10.565 registros, totalizando assim: 84.517 dados.
Dataset [portuguese_wikipedia_sentences](https://huggingface.co/datasets/jvanz/portuguese_wikipedia_sentences)
## Estrutura
### Amostras
Os 3 arquivos disponibilizados de dados no formato [parquet](https://www.alura.com.br/artigos/arquivos-parquet), conforme apresentado abaixo:
```parquet
text
0 Estas atividades fizeram dela uma das mulheres...
1 Ryan também anunciou que o nome da personagem ...
2 O solo, é constituído por uma calçada em mosai...
3 Em 1514, ele apelou a Roma e uma comissão foi ...
4 O Los Angeles Clippers é um time de basquete d...
```
<!-- Se achar importante, dê informações adicionais sobre os dados e que não estejam
em outras seções, por exemplo, estatísticas sobre as amostras do dataset,
distribuição dos dados coletados, etc. -->
### Campos dos Dados
<!-- Indique e descreva os campos presentes no dataset. Informe o tipo do campo.
Se for um campo de categoria, informe os valores possíveis. -->
* **text**: campo que trata de um determinado assunto/tema relacionado.
### Divisão dos Dados
<!-- Descreva as divisões existentes no dataset. Por exemplo, conjuntos de
treinamento, validação e teste. Forneça os tamanhos das divisões. Se achar
pertinente, forneça também estatísticas úteis de cada divisão. -->
Conforme apresentado anteriormente,o conjunto de dados está dividido em treinamento com 63.387 registros, validação com 10.565 registros e teste também com 10.565 registros.
Totalizando 84.517 registros.
Foram gerados 3 arquivos parquet, e carregados na plataforma [HungginFace](https://huggingface.co/datasets/jvanz/portuguese_wikipedia_sentences/tree/main/data), sendo eles:
> evaluation-00000-of-00001.parquet
> test-00000-of-00001.parquet
> train-00000-of-00001.parquet
Para carregar os datasets basta utilizar os seguintes comandos:
```
# importar a biblioteca
from datasets import load_dataset
# carregar os datasets
dataset = load_dataset("jvanz/portuguese_wikipedia_sentences")
```
Que devem gerar a seguinte saída:
``` Saída comando
DatasetDict({
train: Dataset({
features: ['text'],
num_rows: 63387
})
test: Dataset({
features: ['text'],
num_rows: 10565
})
evaluation: Dataset({
features: ['text'],
num_rows: 10565
})
})
```
提供机构:
vitorandrade
原始信息汇总
数据集概述
- 名称: portuguese_wikipedia_sentences
- 网页: portuguese_wikipedia_sentences
- 仓库: portuguese_wikipedia_sentences
数据集内容
-
摘要: 该数据集包含大量从葡萄牙语维基百科中提取的句子,适用于广泛的知识领域,包括一般和特定知识。每个示例包含一个经过清理的维基百科文章,去除了标记和不需要的部分(如参考文献、引用等)。
-
数据结构:
-
样本: 数据以parquet格式存储,包含多个文本样本,如:
text 0 Estas atividades fizeram dela uma das mulheres... 1 Ryan também anunciou que o nome da personagem ... 2 O solo, é constituído por uma calçada em mosai... 3 Em 1514, ele apelou a Roma e uma comissão foi ... 4 O Los Angeles Clippers é um time de basquete d...
-
数据字段:
- text: 描述特定主题或话题的文本字段。
-
-
数据分割:
- 训练集: 包含63,387条记录。
- 验证集: 包含10,565条记录。
- 测试集: 包含10,565条记录。
- 总计: 84,517条记录。
使用意图
- 用途: 该数据集旨在帮助模型学习葡萄牙语,适用于文本分类、实体识别等NLP任务。
语言
- 语言: 数据集语言为葡萄牙语。
数据创建
- 数据来源: 数据集来源于葡萄牙语维基百科,经过自动翻译和清理处理。
- 数据处理: 进行了数据探索分析,确认了训练、验证和测试集的记录数量。



