five

vitorandrade/wikipedia_portugues

收藏
Hugging Face2024-04-13 更新2024-06-11 收录
下载链接:
https://hf-mirror.com/datasets/vitorandrade/wikipedia_portugues
下载链接
链接失效反馈
官方服务:
资源简介:
# Dataset Card para Wikipedia em Português <h2 style='text-align: center;'> Time 1 - NLP </h2> ## Dados Gerais - **Nome:** portuguese_wikipedia_sentences - **Página WEB:** [portuguese_wikipedia_sentences](https://huggingface.co/datasets/jvanz/portuguese_wikipedia_sentences) - **Repositório:** [portuguese_wikipedia_sentences](https://huggingface.co/datasets/jvanz/portuguese_wikipedia_sentences/tree/main/data) ## Resumo Este dataset é adequado para o projeto devido à sua vasta coleção de frases em português extraídas da Wikipedia, oferecendo uma ampla gama de conhecimentos gerais e específicos. Contendo artigos limpos em português, cada exemplo, contém um artigo completo da Wikipedia com limpeza para remover marcações e seções indesejadas(referências, citações, etc) Foi realizado uma [Análise Exploratória dos dados](https://github.com/CPqD/resid2023-nlp-1/blob/main/EDA_wikipedia_setences_pt.ipynb) dos arquivos, sendo eles: > Conjunto de Treinamento: train-00000-of-00001.parquet (7.01MB); > Conjunto de Validação: evaluation-00000-of-00001.parquet (1.17MB); > Conjunto de Teste: test-00000-of-00001.parquet (1.18MB); ## Utilização Pretendida <!-- Indique quais as tarefas de NLP podem utilizar este dataset. Por exemplo, classificação de texto, reconhecimento de entidades, etc. Nesta seção, você pode detalhar e expandir o que foi apresentado no resumo. --> O portuguese_wikipedia_sentences no projeto vai ajudar o modelo aprender o idioma português. ## Idiomas <!-- Indique os idiomas presentes no dataset. --> Foi traduzida automáticamente para a Lingua Portuguesa. ## Criação <!-- Se o dataset foi construído por você, indique a fonte dos dados usados e descreva o processo de coleta e processamento. Se foi usado um dataset já existente, indique a URL do dataset original. Se o dataset existente foi modificado, descreva a modificação realizada e as ferramentas usadas. --> Na [Análise Exploratória dos dados](https://github.com/CPqD/resid2023-nlp-1/blob/main/EDA_wikipedia_setences_pt.ipynb) realizada, verificou-se que os 3 arquivos parquet, para treinamento, teste e validação, possuem, respectivamente, 63.387, 10.565 e 10.565 registros, totalizando assim: 84.517 dados. Dataset [portuguese_wikipedia_sentences](https://huggingface.co/datasets/jvanz/portuguese_wikipedia_sentences) ## Estrutura ### Amostras Os 3 arquivos disponibilizados de dados no formato [parquet](https://www.alura.com.br/artigos/arquivos-parquet), conforme apresentado abaixo: ```parquet text 0 Estas atividades fizeram dela uma das mulheres... 1 Ryan também anunciou que o nome da personagem ... 2 O solo, é constituído por uma calçada em mosai... 3 Em 1514, ele apelou a Roma e uma comissão foi ... 4 O Los Angeles Clippers é um time de basquete d... ``` <!-- Se achar importante, dê informações adicionais sobre os dados e que não estejam em outras seções, por exemplo, estatísticas sobre as amostras do dataset, distribuição dos dados coletados, etc. --> ### Campos dos Dados <!-- Indique e descreva os campos presentes no dataset. Informe o tipo do campo. Se for um campo de categoria, informe os valores possíveis. --> * **text**: campo que trata de um determinado assunto/tema relacionado. ### Divisão dos Dados <!-- Descreva as divisões existentes no dataset. Por exemplo, conjuntos de treinamento, validação e teste. Forneça os tamanhos das divisões. Se achar pertinente, forneça também estatísticas úteis de cada divisão. --> Conforme apresentado anteriormente,o conjunto de dados está dividido em treinamento com 63.387 registros, validação com 10.565 registros e teste também com 10.565 registros. Totalizando 84.517 registros. Foram gerados 3 arquivos parquet, e carregados na plataforma [HungginFace](https://huggingface.co/datasets/jvanz/portuguese_wikipedia_sentences/tree/main/data), sendo eles: > evaluation-00000-of-00001.parquet > test-00000-of-00001.parquet > train-00000-of-00001.parquet Para carregar os datasets basta utilizar os seguintes comandos: ``` # importar a biblioteca from datasets import load_dataset # carregar os datasets dataset = load_dataset("jvanz/portuguese_wikipedia_sentences") ``` Que devem gerar a seguinte saída: ``` Saída comando DatasetDict({ train: Dataset({ features: ['text'], num_rows: 63387 }) test: Dataset({ features: ['text'], num_rows: 10565 }) evaluation: Dataset({ features: ['text'], num_rows: 10565 }) }) ```
提供机构:
vitorandrade
原始信息汇总

数据集概述

数据集内容

  • 摘要: 该数据集包含大量从葡萄牙语维基百科中提取的句子,适用于广泛的知识领域,包括一般和特定知识。每个示例包含一个经过清理的维基百科文章,去除了标记和不需要的部分(如参考文献、引用等)。

  • 数据结构:

    • 样本: 数据以parquet格式存储,包含多个文本样本,如:

      text 0 Estas atividades fizeram dela uma das mulheres... 1 Ryan também anunciou que o nome da personagem ... 2 O solo, é constituído por uma calçada em mosai... 3 Em 1514, ele apelou a Roma e uma comissão foi ... 4 O Los Angeles Clippers é um time de basquete d...

    • 数据字段:

      • text: 描述特定主题或话题的文本字段。
  • 数据分割:

    • 训练集: 包含63,387条记录。
    • 验证集: 包含10,565条记录。
    • 测试集: 包含10,565条记录。
    • 总计: 84,517条记录。

使用意图

  • 用途: 该数据集旨在帮助模型学习葡萄牙语,适用于文本分类、实体识别等NLP任务。

语言

  • 语言: 数据集语言为葡萄牙语。

数据创建

  • 数据来源: 数据集来源于葡萄牙语维基百科,经过自动翻译和清理处理。
  • 数据处理: 进行了数据探索分析,确认了训练、验证和测试集的记录数量。
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作