five

Polygl0t/portuguese-edu-qwen-annotations

收藏
Hugging Face2026-03-05 更新2026-04-05 收录
下载链接:
https://hf-mirror.com/datasets/Polygl0t/portuguese-edu-qwen-annotations
下载链接
链接失效反馈
官方服务:
资源简介:
--- dataset_info: features: - name: id dtype: string - name: text dtype: string - name: score dtype: int64 - name: subset dtype: string - name: source dtype: string splits: - name: train num_bytes: 2013057132 num_examples: 700000 download_size: 1233646950 dataset_size: 2013057132 configs: - config_name: default data_files: - split: train path: data/train-* license: apache-2.0 task_categories: - text-classification language: - pt tags: - educational - portuguese pretty_name: Portuguese Edu Annotations size_categories: - 100K<n<1M --- # Annotations for the Portuguese-Edu classifier 📚 ## Table of Contents - [Dataset Description](#dataset-description) - [Dataset Summary](#dataset-summary) - [Supported Tasks and Leaderboards](#supported-tasks-and-leaderboards) - [Languages](#languages) - [Dataset Structure](#dataset-structure) - [Data Instances](#data-instances) - [Data Fields](#data-fields) - [Subsets and Splits](#subsets-and-splits) - [Dataset Creation](#dataset-creation) - [Source Data](#source-data) - [Annotations](#annotations) - [Annotation Process](#annotation-process) - [Considerations for Using the Data](#considerations-for-using-the-data) - [Social Impact of Dataset](#social-impact-of-dataset) - [Additional Information](#additional-information) - [Dataset Maintainers](#dataset-maintainers) - [Licensing Information](#licensing-information) - [Citation Information](#citation-information) - [Acknowledgments](#acknowledgments) - [Contributions](#contributions) ## Dataset Description - **Homepage:** https://huggingface.co/datasets/Polygl0t/portuguese-edu-qwen-annotations - **Repository:** https://huggingface.co/datasets/Polygl0t/portuguese-edu-qwen-annotations - **Point of Contact:** [Polyg0t](mailto:kluge@uni-bonn.de) ### Dataset Summary This dataset contains the annotations used for training an educational classifier ([Polygl0t/portuguese-bertimbau-large-edu-classifier](https://huggingface.co/Polygl0t/portuguese-bertimbau-large-edu-classifier) and [Polygl0t/portuguese-bertimbau-edu-classifier](https://huggingface.co/Polygl0t/portuguese-bertimbau-edu-classifier)). These annotations were generated by [Qwen/Qwen2.5-32B-Instruct](https://huggingface.co/Qwen/Qwen2.5-32B-Instruct). ### Supported Tasks and Leaderboards This dataset can be used for the task of text classification, specifically for educational quality assessment in Portuguese text. ### Languages Portuguese. ## Dataset Structure ### Data Instances - **id:** a unique identifier for each sample (md5 hash). - **text:** a string of text in Portuguese. - **source:** the source where that string originated. - **subset:** a short string indicating the name of the subset (referring to the original dataset or crawl). - **score:** the score assigned by [Qwen/Qwen2.5-32B-Instruct](https://huggingface.co/Qwen/Qwen2.5-32B-Instruct). ### Data Fields ```json { "text": "Amostra de texto em português para avaliação educacional.", "source": "https://data.commoncrawl.org/crawl-data/CC-MAIN-2025-30/index.html", "subset": "CC-MAIN-2025-30", "id": "a1b2c3d4e5f67890123456789abcdef", "score": 2 } ``` ### Subsets and Splits This dataset contains a single split: `train`, which includes all 700,000 samples. ```python from datasets import load_dataset # Load the main dataset ds = load_dataset("Polygl0t/portuguese-edu-qwen-annotations", split="train") # If you don't want to download the entire dataset, set streaming to `True` ds = load_dataset("Polygl0t/portuguese-edu-qwen-annotations", split="train", streaming=True) ``` ## Dataset Creation ### Source Data All data was sourced from [Polygl0t/gigaverbo-v2](https://huggingface.co/datasets/Polygl0t/gigaverbo-v2). The **id** field corresponds to the md5 hash of the text. ### Annotations The dataset was created to provide high-quality educational annotations for Portuguese text, leveraging the capabilities of Qwen2.5 to generate consistent and scalable annotations. The score distribution of this dataset is the following: | Edu Score | N samples | | --------- | --------- | | 1 | 252942 | | 2 | 265969 | | 3 | 136784 | | 4 | 43891 | | 5 | 414 | #### Annotation Process The initial annotation was performed on a random sample of 700,000 documents from [Polygl0t/gigaverbo-v2](https://huggingface.co/datasets/Polygl0t/gigaverbo-v2), where we tried to sample equally from all the subsets that form this corpus. In terms of infrastructure, we used 4 x NVIDIA A100-SXM4-80GB GPUs and the vLLM library as our inference engine with 4-fold tensor parallelism. Below is the prompt used for annotation: ```text Você é um avaliador de qualidade de textos para a língua portuguesa. Sua tarefa é avaliar, em uma escala de 1 a 5, o quão informativo e educativo é um dado trecho de texto. Você DEVE apresentar sua pontuação no formato JSON. ### Critérios de Avaliação: - Dê 1 se o texto não for informativo ou educativo. Também dê 1 se o texto for muito simples, muito curto, mal formatado, sem sentido ou contiver conteúdo NSFW. - Dê 2 se o texto for um pouco informativo, mas carecer de valor educacional. Por exemplo, pode misturar conteúdo educativo com material não educativo, oferecendo uma visão superficial de tópicos potencialmente úteis. - Dê 3 se o texto for informativo e adequado para uso educacional, apresentando conceitos-chave relevantes para os currículos escolares. Por exemplo, se o texto for um artigo bem escrito sobre um tópico científico, mas pode não ser completo ou incluir informações supérfluas, sendo excessivamente complexo ou muito simples. - Dê 4 se o texto for educativo e informativo, proporcionando um conteúdo altamente relevante e benéfico para fins educacionais, para um nível não superior ao ensino fundamental, exibindo um estilo de escrita claro e consistente. Por exemplo, poderia ser similar a um capítulo de livro didático ou a um tutorial, oferecendo conteúdo educacional substancial, incluindo exercícios e soluções, com informações irrelevantes mínimas. - Dê 5 se o texto for altamente educativo e informativo. Para uma pontuação 5, o texto deve ser excepcional em seu valor educacional, perfeitamente adequado para ensino no ensino fundamental ou ensino médio. Ele segue um raciocínio detalhado, o estilo de escrita é fácil de entender e oferece insights profundos e completos sobre o assunto. ### Requisitos de Saída: - Sua saída deve ser um objeto JSON válido. - O JSON deve conter apenas um par chave-valor. - A chave deve ser 'score'. - O valor deve ser um número inteiro entre 1 e 5. - O valor deve ser uma representação fiel dos critérios acima. ### Exemplo de Saída: {'score': 2} Certifique-se de que suas respostas sigam estritamente este formato e avaliem o texto de forma precisa, com base nos critérios fornecidos. Abaixo está um trecho de uma página da web. Avalie se a página tem um alto valor educacional e pode ser útil em um ambiente educacional para ensino do ensino fundamental ao ensino médio. Atribua uma pontuação entre 1 e 5. Certifique-se de que sua pontuação reflita quão informativo e educativo o texto é. O texto será fornecido em português. Texto: <<O texto a ser avaliado>> Forneça sua pontuação como um número inteiro entre 1 e 5. Responda apenas no formato JSON. ``` ## Considerations for Using the Data ### Social Impact of Dataset The dataset aims to provide a valuable resource for understanding and improving educational content in Portuguese text. By offering high-quality annotations, it can help researchers and developers create more effective educational tools, promote better learning outcomes, and contribute to the broader field of NLP for low-resource languages. ## Additional Information ### Dataset Maintainers - [Nicholas Kluge Corrêa](mailto:kluge@uni-bonn.de). - [Shiza Fatimah](mailto:shizafatimah15@gmail.com). - [Aniket Sen](mailto:sen@hiskp.uni-bonn.de). ### Licensing Information The dataset is licensed under the [Apache-2.0 License](LICENSE). ### Citation Information ```latex @misc{correa2026tucano2cool, title={{Tucano 2 Cool: Better Open Source LLMs for Portuguese}}, author={Nicholas Kluge Corr{\^e}a and Aniket Sen and Shiza Fatimah and Sophia Falk and Lennard Landgraf and Julia Kastner and Lucie Flek}, year={2026}, eprint={2603.03543}, archivePrefix={arXiv}, primaryClass={cs.CL}, url={https://arxiv.org/abs/2603.03543}, } ``` ### Acknowledgments Polyglot is a project funded by the Federal Ministry of Education and Research (BMBF) and the Ministry of Culture and Science of the State of North Rhine-Westphalia (MWK) as part of TRA Sustainable Futures (University of Bonn) and the Excellence Strategy of the federal and state governments. We also gratefully acknowledge the granted access to the [Marvin cluster](https://www.hpc.uni-bonn.de/en/systems/marvin) hosted by [University of Bonn](https://www.uni-bonn.de/en) along with the support provided by its High Performance Computing & Analytics Lab. ### Contributions If you want to contribute, contact us at [polyglot@uni-bonn.de](mailto:polyglot@uni-bonn.de)!
提供机构:
Polygl0t
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作