Polygl0t/portuguese-edu-qwen-annotations
收藏Hugging Face2026-03-05 更新2026-04-05 收录
下载链接:
https://hf-mirror.com/datasets/Polygl0t/portuguese-edu-qwen-annotations
下载链接
链接失效反馈官方服务:
资源简介:
---
dataset_info:
features:
- name: id
dtype: string
- name: text
dtype: string
- name: score
dtype: int64
- name: subset
dtype: string
- name: source
dtype: string
splits:
- name: train
num_bytes: 2013057132
num_examples: 700000
download_size: 1233646950
dataset_size: 2013057132
configs:
- config_name: default
data_files:
- split: train
path: data/train-*
license: apache-2.0
task_categories:
- text-classification
language:
- pt
tags:
- educational
- portuguese
pretty_name: Portuguese Edu Annotations
size_categories:
- 100K<n<1M
---
# Annotations for the Portuguese-Edu classifier 📚
## Table of Contents
- [Dataset Description](#dataset-description)
- [Dataset Summary](#dataset-summary)
- [Supported Tasks and Leaderboards](#supported-tasks-and-leaderboards)
- [Languages](#languages)
- [Dataset Structure](#dataset-structure)
- [Data Instances](#data-instances)
- [Data Fields](#data-fields)
- [Subsets and Splits](#subsets-and-splits)
- [Dataset Creation](#dataset-creation)
- [Source Data](#source-data)
- [Annotations](#annotations)
- [Annotation Process](#annotation-process)
- [Considerations for Using the Data](#considerations-for-using-the-data)
- [Social Impact of Dataset](#social-impact-of-dataset)
- [Additional Information](#additional-information)
- [Dataset Maintainers](#dataset-maintainers)
- [Licensing Information](#licensing-information)
- [Citation Information](#citation-information)
- [Acknowledgments](#acknowledgments)
- [Contributions](#contributions)
## Dataset Description
- **Homepage:** https://huggingface.co/datasets/Polygl0t/portuguese-edu-qwen-annotations
- **Repository:** https://huggingface.co/datasets/Polygl0t/portuguese-edu-qwen-annotations
- **Point of Contact:** [Polyg0t](mailto:kluge@uni-bonn.de)
### Dataset Summary
This dataset contains the annotations used for training an educational classifier ([Polygl0t/portuguese-bertimbau-large-edu-classifier](https://huggingface.co/Polygl0t/portuguese-bertimbau-large-edu-classifier) and [Polygl0t/portuguese-bertimbau-edu-classifier](https://huggingface.co/Polygl0t/portuguese-bertimbau-edu-classifier)). These annotations were generated by [Qwen/Qwen2.5-32B-Instruct](https://huggingface.co/Qwen/Qwen2.5-32B-Instruct).
### Supported Tasks and Leaderboards
This dataset can be used for the task of text classification, specifically for educational quality assessment in Portuguese text.
### Languages
Portuguese.
## Dataset Structure
### Data Instances
- **id:** a unique identifier for each sample (md5 hash).
- **text:** a string of text in Portuguese.
- **source:** the source where that string originated.
- **subset:** a short string indicating the name of the subset (referring to the original dataset or crawl).
- **score:** the score assigned by [Qwen/Qwen2.5-32B-Instruct](https://huggingface.co/Qwen/Qwen2.5-32B-Instruct).
### Data Fields
```json
{
"text": "Amostra de texto em português para avaliação educacional.",
"source": "https://data.commoncrawl.org/crawl-data/CC-MAIN-2025-30/index.html",
"subset": "CC-MAIN-2025-30",
"id": "a1b2c3d4e5f67890123456789abcdef",
"score": 2
}
```
### Subsets and Splits
This dataset contains a single split: `train`, which includes all 700,000 samples.
```python
from datasets import load_dataset
# Load the main dataset
ds = load_dataset("Polygl0t/portuguese-edu-qwen-annotations", split="train")
# If you don't want to download the entire dataset, set streaming to `True`
ds = load_dataset("Polygl0t/portuguese-edu-qwen-annotations", split="train", streaming=True)
```
## Dataset Creation
### Source Data
All data was sourced from [Polygl0t/gigaverbo-v2](https://huggingface.co/datasets/Polygl0t/gigaverbo-v2). The **id** field corresponds to the md5 hash of the text.
### Annotations
The dataset was created to provide high-quality educational annotations for Portuguese text, leveraging the capabilities of Qwen2.5 to generate consistent and scalable annotations.
The score distribution of this dataset is the following:
| Edu Score | N samples |
| --------- | --------- |
| 1 | 252942 |
| 2 | 265969 |
| 3 | 136784 |
| 4 | 43891 |
| 5 | 414 |
#### Annotation Process
The initial annotation was performed on a random sample of 700,000 documents from [Polygl0t/gigaverbo-v2](https://huggingface.co/datasets/Polygl0t/gigaverbo-v2), where we tried to sample equally from all the subsets that form this corpus. In terms of infrastructure, we used 4 x NVIDIA A100-SXM4-80GB GPUs and the vLLM library as our inference engine with 4-fold tensor parallelism.
Below is the prompt used for annotation:
```text
Você é um avaliador de qualidade de textos para a língua portuguesa. Sua tarefa é avaliar, em uma escala de 1 a 5, o quão informativo e educativo é um dado trecho de texto. Você DEVE apresentar sua pontuação no formato JSON.
### Critérios de Avaliação:
- Dê 1 se o texto não for informativo ou educativo. Também dê 1 se o texto for muito simples, muito curto, mal formatado, sem sentido ou contiver conteúdo NSFW.
- Dê 2 se o texto for um pouco informativo, mas carecer de valor educacional. Por exemplo, pode misturar conteúdo educativo com material não educativo, oferecendo uma visão superficial de tópicos potencialmente úteis.
- Dê 3 se o texto for informativo e adequado para uso educacional, apresentando conceitos-chave relevantes para os currículos escolares. Por exemplo, se o texto for um artigo bem escrito sobre um tópico científico, mas pode não ser completo ou incluir informações supérfluas, sendo excessivamente complexo ou muito simples.
- Dê 4 se o texto for educativo e informativo, proporcionando um conteúdo altamente relevante e benéfico para fins educacionais, para um nível não superior ao ensino fundamental, exibindo um estilo de escrita claro e consistente. Por exemplo, poderia ser similar a um capítulo de livro didático ou a um tutorial, oferecendo conteúdo educacional substancial, incluindo exercícios e soluções, com informações irrelevantes mínimas.
- Dê 5 se o texto for altamente educativo e informativo. Para uma pontuação 5, o texto deve ser excepcional em seu valor educacional, perfeitamente adequado para ensino no ensino fundamental ou ensino médio. Ele segue um raciocínio detalhado, o estilo de escrita é fácil de entender e oferece insights profundos e completos sobre o assunto.
### Requisitos de Saída:
- Sua saída deve ser um objeto JSON válido.
- O JSON deve conter apenas um par chave-valor.
- A chave deve ser 'score'.
- O valor deve ser um número inteiro entre 1 e 5.
- O valor deve ser uma representação fiel dos critérios acima.
### Exemplo de Saída:
{'score': 2}
Certifique-se de que suas respostas sigam estritamente este formato e avaliem o texto de forma precisa, com base nos critérios fornecidos.
Abaixo está um trecho de uma página da web. Avalie se a página tem um alto valor educacional e pode ser útil em um ambiente educacional para ensino do ensino fundamental ao ensino médio. Atribua uma pontuação entre 1 e 5. Certifique-se de que sua pontuação reflita quão informativo e educativo o texto é. O texto será fornecido em português.
Texto: <<O texto a ser avaliado>>
Forneça sua pontuação como um número inteiro entre 1 e 5. Responda apenas no formato JSON.
```
## Considerations for Using the Data
### Social Impact of Dataset
The dataset aims to provide a valuable resource for understanding and improving educational content in Portuguese text. By offering high-quality annotations, it can help researchers and developers create more effective educational tools, promote better learning outcomes, and contribute to the broader field of NLP for low-resource languages.
## Additional Information
### Dataset Maintainers
- [Nicholas Kluge Corrêa](mailto:kluge@uni-bonn.de).
- [Shiza Fatimah](mailto:shizafatimah15@gmail.com).
- [Aniket Sen](mailto:sen@hiskp.uni-bonn.de).
### Licensing Information
The dataset is licensed under the [Apache-2.0 License](LICENSE).
### Citation Information
```latex
@misc{correa2026tucano2cool,
title={{Tucano 2 Cool: Better Open Source LLMs for Portuguese}},
author={Nicholas Kluge Corr{\^e}a and Aniket Sen and Shiza Fatimah and Sophia Falk and Lennard Landgraf and Julia Kastner and Lucie Flek},
year={2026},
eprint={2603.03543},
archivePrefix={arXiv},
primaryClass={cs.CL},
url={https://arxiv.org/abs/2603.03543},
}
```
### Acknowledgments
Polyglot is a project funded by the Federal Ministry of Education and Research (BMBF) and the Ministry of Culture and Science of the State of North Rhine-Westphalia (MWK) as part of TRA Sustainable Futures (University of Bonn) and the Excellence Strategy of the federal and state governments.
We also gratefully acknowledge the granted access to the [Marvin cluster](https://www.hpc.uni-bonn.de/en/systems/marvin) hosted by [University of Bonn](https://www.uni-bonn.de/en) along with the support provided by its High Performance Computing & Analytics Lab.
### Contributions
If you want to contribute, contact us at [polyglot@uni-bonn.de](mailto:polyglot@uni-bonn.de)!
提供机构:
Polygl0t



