Córpus de Complexidade Textual para Estágios Escolares

github2024-05-01 更新2024-05-31 收录

下载链接：

https://github.com/gazzola/corpus_readability_nlp_portuguese

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含用于评估巴西教育系统中不同学段文本复杂度的材料，包括教科书、新闻、考试等文本片段。

This dataset comprises materials designed to assess the text complexity across various educational stages within the Brazilian education system, including excerpts from textbooks, news articles, and examination papers.

创建时间：

2019-08-02

原始信息汇总

数据集概述

数据集名称

Córpus de Complexidade Textual para Estágios Escolares do Sistema Educacional Brasileiro

数据集内容

包含的文本来源：
- 教科书摘录
- 新闻部分“Para Seu Filho Ler”（PSFL）的Zero Hora报纸文章，专为8至11岁儿童编写
- SAEB考试
- Wikilivros的葡萄牙语电子书
- 2015至2017年的Enem考试

数据集目的

用于评估文本复杂度（readability）。

数据集版权

许可证：Creative Commons BY 4.0
引用要求：使用数据集时需引用来源，引用格式如下：

@inproceedings{mgazzola19, title={Predição da Complexidade Textual de Recursos Educacionais Abertos em Português}, author={Murilo Gazzola, Sidney Evaldo Leal, Sandra Maria Aluisio}, booktitle={Proceedings of the Brazilian Symposium in Information and Human Language Technology}, year={2019} }

搜集汇总

数据集介绍

构建方式

该数据集，名为Córpus de Complexidade Textual para Estágios Escolares，主要用于评估文本复杂度，特别针对巴西教育系统中的学校阶段。其构建过程涉及多种文本来源，包括教科书、新闻专栏‘Para Seu Filho Ler’（专为8至11岁儿童设计）、SAEB考试、Wikilivros数字书籍以及2015至2017年的ENEM考试。这些文本均以葡萄牙语编写，旨在为文本复杂度评估提供丰富的语料资源。

使用方法

该数据集主要用于文本复杂度评估任务，适合于自然语言处理和教育技术领域的研究。使用者可以通过分析不同来源的文本，研究其复杂度特征，并应用于教育材料的适应性调整或自动化评估系统中。引用时需遵循Creative Commons BY 4.0许可，并正确引用原始文献。

背景与挑战

背景概述

Córpus de Complexidade Textual para Estágios Escolares do Sistema Educacional Brasileiro 是一个专注于评估文本复杂度（readability）的数据集，旨在为巴西教育系统中的学龄儿童提供适合其阅读水平的文本资源。该数据集由Murilo Gazzola在其博士研究中创建，研究由圣保罗大学（USP）的跨机构计算语言学核心实验室（Núcleo Interinstitucional de Linguística Computacional）指导，导师为Sandra Maria Aluísio教授。数据集汇集了多种来源的文本，包括教科书、儿童新闻、SAEB考试、Wikilivros数字书籍以及2015至2017年的ENEM考试文本。这些文本均以葡萄牙语编写，旨在为自然语言处理（NLP）领域的研究提供丰富的语料资源，特别是针对文本复杂度的预测任务。

当前挑战

该数据集面临的挑战主要集中在文本复杂度的评估与预测上。首先，不同来源的文本在语言风格、词汇难度和句法结构上存在显著差异，如何准确量化这些差异并建立统一的复杂度评估标准是一个重要挑战。其次，数据集的构建过程中需要处理多种类型的文本，包括教科书、新闻和考试材料，这些文本的语境和目的各不相同，增加了复杂度评估的难度。此外，由于数据集主要面向学龄儿童，如何确保评估模型能够准确反映不同年龄段儿童的阅读能力，也是一个亟待解决的问题。

常用场景

经典使用场景

Córpus de Complexidade Textual para Estágios Escolares数据集的经典使用场景主要集中在文本复杂度评估领域。该数据集汇集了多种教育资源，包括教科书、儿童新闻、SAEB考试和ENEM考试的文本片段，以及葡萄牙语的Wikilivros数字书籍。这些文本材料被广泛用于开发和验证文本复杂度评估模型，特别是在教育领域中，帮助识别适合不同年龄段学生的阅读材料。

解决学术问题

该数据集解决了在自然语言处理领域中，如何准确评估文本复杂度这一关键学术问题。通过提供多样化的文本样本，它为研究者提供了一个标准化的基准，用以开发和测试文本复杂度评估算法。这对于教育技术的发展具有重要意义，因为它能够帮助教育工作者和研究人员更好地理解不同文本的阅读难度，从而优化教学材料的选择和设计。

实际应用

在实际应用中，Córpus de Complexidade Textual para Estágios Escolares数据集被广泛应用于教育软件和在线学习平台中。例如，它可以用于自动推荐适合学生阅读水平的书籍和文章，或者在智能辅导系统中评估学生的阅读理解能力。此外，该数据集还支持开发个性化学习路径，确保每个学生都能接收到与其阅读能力相匹配的教育资源。

数据集最近研究