OneStopEnglish corpus

github2021-03-17 更新2024-05-31 收录

下载链接：

https://github.com/elenimi/OneStopEnglishCorpus

下载链接

链接失效反馈

官方服务：

资源简介：

OneStopEnglish语料库：一个用于自动可读性评估和文本简化的新语料库。该语料库包含三个阅读水平的文本文件，以及经过处理的文件，如斯坦福解析器和CoreNLP的输出。

OneStopEnglish Corpus: A novel corpus designed for automatic readability assessment and text simplification. This corpus encompasses text files across three reading levels, along with processed files such as outputs from the Stanford Parser and CoreNLP.

创建时间：

2019-06-17

原始信息汇总

数据集概述

数据集名称

OneStopEnglish corpus

数据集用途

用于自动可读性评估和文本简化研究。

数据集来源

由Sowmya Vajjala和Ivana Lučić于2018年创建，相关研究发表于《Proceedings of the Thirteenth Workshop on Innovative Use of NLP for Building Educational Applications》。

数据集结构

Texts-SeparatedByReadingLevel/: 包含三个按阅读水平分类的子文件夹，每个文件名后缀表示不同的阅读水平（-ele.txt/-int.txt/-adv.txt）。
Texts-Together-OneCSVperFile/: 每个文本对应一个CSV文件，包含三个阅读水平的文本，保留段落分隔。
Sentence-Aligned/: 包含三个文本文件，实现不同阅读水平间的句子对齐，使用余弦相似度进行对齐。
Processed-AllLevels-AllFiles/: 包含使用Stanford Parser、Stanford CoreNLP和Upenns Discourse Connectives Tagger处理后的文件。

数据集授权

本数据集遵循Creative Commons Attribution-ShareAlike 4.0 International License。

联系方式

如需咨询，请联系sowmya@iastate.edu。

搜集汇总

数据集介绍

构建方式

OneStopEnglish语料库的构建基于从OneStopEnglish网站收集的文本数据，这些文本被分为三个不同的阅读难度级别：初级（Elementary）、中级（Intermediate）和高级（Advanced）。每个文本在不同难度级别下都有相应的版本，确保了数据的多样性和层次性。为了增强语料库的实用性，研究者还使用余弦相似度对句子进行了对齐处理，生成了不同难度级别之间的句子对齐文件。此外，语料库还包含了经过斯坦福解析器和CoreNLP工具处理的文本，进一步丰富了数据的语言学特征。

使用方法

使用OneStopEnglish语料库时，研究者可以根据需求选择不同格式的数据文件。文本按阅读难度分别存储于不同文件夹中，便于按级别提取数据。对于需要跨级别对比的研究，可以使用句子对齐文件进行句子级别的分析。此外，语料库还提供了经过处理的文本文件，包含句法分析和篇章连接词标注，可直接用于模型训练或特征提取。研究者还可以通过提供的CSV文件快速获取同一文本在不同难度级别下的对应段落，简化了数据处理流程。

背景与挑战

背景概述

OneStopEnglish语料库由Sowmya Vajjala和Ivana Lučić于2018年创建，旨在为自动可读性评估和文本简化研究提供支持。该语料库收录了来自OneStopEnglish网站的文章，并根据阅读难度分为初级、中级和高级三个层次。其核心研究问题在于如何通过自然语言处理技术，自动评估文本的可读性并实现文本简化，从而为教育应用提供技术支持。该语料库的发布为相关领域的研究提供了重要的数据基础，推动了可读性评估和文本简化技术的发展。

当前挑战

OneStopEnglish语料库面临的挑战主要包括两个方面。首先，在解决领域问题上，如何准确评估文本的可读性并实现有效的文本简化仍然是一个复杂的问题，尤其是在处理多语言和多领域文本时。其次，在构建过程中，研究人员需要克服文本对齐和标注的困难，例如如何在不同阅读层次之间实现句子级别的对齐，以及如何确保标注的一致性和准确性。这些挑战不仅影响了语料库的质量，也对后续研究的可靠性和有效性提出了更高的要求。

常用场景

经典使用场景

OneStopEnglish语料库广泛应用于自动可读性评估和文本简化研究领域。该数据集通过提供不同阅读难度的文本，为研究人员提供了一个标准化的平台，用于开发和测试自然语言处理算法，特别是在教育技术中的应用。

解决学术问题

该数据集解决了自动可读性评估和文本简化中的关键问题，如如何准确评估文本的阅读难度以及如何有效地简化复杂文本以适应不同读者的需求。这些问题对于提升教育材料的可访问性和理解度具有重要意义。

实际应用

在实际应用中，OneStopEnglish语料库被用于开发智能教育工具，如自动文本简化系统和阅读辅助工具，这些工具能够帮助非母语学习者和阅读障碍者更好地理解和学习英语。

数据集最近研究