vitorandrade/wikipedia_portugues

Name: vitorandrade/wikipedia_portugues
Creator: vitorandrade
Published: 2024-04-13 02:01:27
License: 暂无描述

Hugging Face2024-04-13 更新2024-06-11 收录

下载链接：

https://hf-mirror.com/datasets/vitorandrade/wikipedia_portugues

下载链接

链接失效反馈

官方服务：

资源简介：

# Dataset Card para Wikipedia em Português <h2 style='text-align: center;'> Time 1 - NLP </h2> ## Dados Gerais - **Nome:** portuguese_wikipedia_sentences - **Página WEB:** [portuguese_wikipedia_sentences](https://huggingface.co/datasets/jvanz/portuguese_wikipedia_sentences) - **Repositório:** [portuguese_wikipedia_sentences](https://huggingface.co/datasets/jvanz/portuguese_wikipedia_sentences/tree/main/data) ## Resumo Este dataset é adequado para o projeto devido à sua vasta coleção de frases em português extraídas da Wikipedia, oferecendo uma ampla gama de conhecimentos gerais e específicos. Contendo artigos limpos em português, cada exemplo, contém um artigo completo da Wikipedia com limpeza para remover marcações e seções indesejadas(referências, citações, etc) Foi realizado uma [Análise Exploratória dos dados](https://github.com/CPqD/resid2023-nlp-1/blob/main/EDA_wikipedia_setences_pt.ipynb) dos arquivos, sendo eles: > Conjunto de Treinamento: train-00000-of-00001.parquet (7.01MB); > Conjunto de Validação: evaluation-00000-of-00001.parquet (1.17MB); > Conjunto de Teste: test-00000-of-00001.parquet (1.18MB); ## Utilização Pretendida  O portuguese_wikipedia_sentences no projeto vai ajudar o modelo aprender o idioma português. ## Idiomas  Foi traduzida automáticamente para a Lingua Portuguesa. ## Criação  Na [Análise Exploratória dos dados](https://github.com/CPqD/resid2023-nlp-1/blob/main/EDA_wikipedia_setences_pt.ipynb) realizada, verificou-se que os 3 arquivos parquet, para treinamento, teste e validação, possuem, respectivamente, 63.387, 10.565 e 10.565 registros, totalizando assim: 84.517 dados. Dataset [portuguese_wikipedia_sentences](https://huggingface.co/datasets/jvanz/portuguese_wikipedia_sentences) ## Estrutura ### Amostras Os 3 arquivos disponibilizados de dados no formato [parquet](https://www.alura.com.br/artigos/arquivos-parquet), conforme apresentado abaixo: ```parquet text 0 Estas atividades fizeram dela uma das mulheres... 1 Ryan também anunciou que o nome da personagem ... 2 O solo, é constituído por uma calçada em mosai... 3 Em 1514, ele apelou a Roma e uma comissão foi ... 4 O Los Angeles Clippers é um time de basquete d... ```  ### Campos dos Dados  * **text**: campo que trata de um determinado assunto/tema relacionado. ### Divisão dos Dados  Conforme apresentado anteriormente,o conjunto de dados está dividido em treinamento com 63.387 registros, validação com 10.565 registros e teste também com 10.565 registros. Totalizando 84.517 registros. Foram gerados 3 arquivos parquet, e carregados na plataforma [HungginFace](https://huggingface.co/datasets/jvanz/portuguese_wikipedia_sentences/tree/main/data), sendo eles: > evaluation-00000-of-00001.parquet > test-00000-of-00001.parquet > train-00000-of-00001.parquet Para carregar os datasets basta utilizar os seguintes comandos: ``` # importar a biblioteca from datasets import load_dataset # carregar os datasets dataset = load_dataset("jvanz/portuguese_wikipedia_sentences") ``` Que devem gerar a seguinte saída: ``` Saída comando DatasetDict({ train: Dataset({ features: ['text'], num_rows: 63387 }) test: Dataset({ features: ['text'], num_rows: 10565 }) evaluation: Dataset({ features: ['text'], num_rows: 10565 }) }) ```

提供机构：

vitorandrade

原始信息汇总

数据集概述

名称: portuguese_wikipedia_sentences
网页: portuguese_wikipedia_sentences
仓库: portuguese_wikipedia_sentences

数据集内容

摘要: 该数据集包含大量从葡萄牙语维基百科中提取的句子，适用于广泛的知识领域，包括一般和特定知识。每个示例包含一个经过清理的维基百科文章，去除了标记和不需要的部分（如参考文献、引用等）。
数据结构:
- 样本: 数据以parquet格式存储，包含多个文本样本，如：
  
  text 0 Estas atividades fizeram dela uma das mulheres... 1 Ryan também anunciou que o nome da personagem ... 2 O solo, é constituído por uma calçada em mosai... 3 Em 1514, ele apelou a Roma e uma comissão foi ... 4 O Los Angeles Clippers é um time de basquete d...
- 数据字段:
  - text: 描述特定主题或话题的文本字段。
数据分割:
- 训练集: 包含63,387条记录。
- 验证集: 包含10,565条记录。
- 测试集: 包含10,565条记录。
- 总计: 84,517条记录。

使用意图

用途: 该数据集旨在帮助模型学习葡萄牙语，适用于文本分类、实体识别等NLP任务。

语言

语言: 数据集语言为葡萄牙语。

数据创建

数据来源: 数据集来源于葡萄牙语维基百科，经过自动翻译和清理处理。
数据处理: 进行了数据探索分析，确认了训练、验证和测试集的记录数量。

5,000+

优质数据集

54 个

任务类型

进入经典数据集