OneStopEnglish corpus

github2024-05-14 更新2024-05-31 收录

下载链接：

https://github.com/nishkalavallabhi/OneStopEnglishCorpus

下载链接

链接失效反馈

官方服务：

资源简介：

OneStopEnglish语料库：一个用于自动可读性评估和文本简化的新语料库。该语料库包含三个阅读水平的文本文件，以及句子对齐文件，用于支持文本分析和处理。

OneStopEnglish Corpus: A novel corpus designed for automatic readability assessment and text simplification. This corpus encompasses text files across three reading levels, accompanied by sentence-aligned files to facilitate text analysis and processing.

创建时间：

2018-04-10

原始信息汇总

数据集概述

数据集名称

OneStopEnglish corpus

数据集用途

用于自动可读性评估和文本简化研究。

数据集来源

该数据集描述于以下论文：

作者：Sowmya Vajjala 和 Ivana Lučić
发表年份：2018
会议：Proceedings of the Thirteenth Workshop on Innovative Use of NLP for Building Educational Applications
页码：297–304
出版机构：Association for Computational Linguistics

数据集结构

Texts-SeparatedByReadingLevel/
- 包含三个按阅读水平划分的子文件夹。
- 每个文件名后缀为 -ele.txt, -int.txt, -adv.txt，分别对应不同的阅读水平。
Texts-Together-OneCSVperFile/
- 每个文本对应一个CSV文件，包含三个阅读水平的列。
- 保留段落分隔。
Sentence-Aligned/
- 包含三个文本文件，展示不同阅读水平之间的句子对齐。
- 使用余弦相似度进行句子对齐。
Processed-AllLevels-AllFiles/
- 包含使用Stanford Parser, Stanford CoreNLP和Upenns Discourse Connectives Tagger处理后的输出文件。

数据集许可证

本数据集遵循Creative Commons Attribution-ShareAlike 4.0 International License。

联系方式

电子邮件：sowmya@iastate.edu

搜集汇总

数据集介绍

构建方式

OneStopEnglish语料库的构建基于对不同阅读水平的文本进行系统性分类与对齐。该语料库包含三个阅读水平子文件夹，分别对应初学者（ele）、中级（int）和高级（adv）。每个文件根据其所属的阅读水平进行标记，并使用余弦相似度进行句子对齐，确保不同阅读水平之间的文本在语义上保持一致。此外，语料库还通过Stanford解析器、Stanford CoreNLP工具以及宾夕法尼亚大学的Discourse Connectives Tagger进行进一步处理，以提供丰富的语言学特征。

使用方法

OneStopEnglish语料库的使用方法灵活多样，适用于多种自然语言处理任务。研究者可以直接访问‘Texts-SeparatedByReadingLevel’文件夹，获取按阅读水平分类的文本数据，或通过‘Texts-Together-OneCSVperFile’文件夹查看同一文本在不同阅读水平下的对比数据。对于需要深入分析的研究，‘Sentence-Aligned’文件夹提供了句子级别的对齐信息，而‘Processed-AllLevels-AllFiles’文件夹则包含了经过多种语言学工具处理后的输出文件，便于进行更复杂的语言学分析。

背景与挑战

背景概述

OneStopEnglish语料库是由Sowmya Vajjala和Ivana Lučić于2018年创建的，旨在为自动可读性评估和文本简化研究提供新的数据资源。该语料库在第十三届NLP在教育应用中的创新使用研讨会上首次发布，并迅速成为相关领域的重要参考。其核心研究问题围绕如何通过自然语言处理技术有效评估文本的可读性，并实现文本的简化。该语料库的发布不仅推动了自动文本简化技术的发展，还为教育领域的语言教学提供了有力的支持。

当前挑战

OneStopEnglish语料库在构建过程中面临了多重挑战。首先，如何准确地将文本划分为不同的阅读级别，并确保每个级别的文本在语法和词汇上的差异性，是一个复杂的问题。其次，实现句子级别的对齐，尤其是通过余弦相似度进行跨级别的句子匹配，需要高效的算法和计算资源。此外，语料库的多样性和覆盖范围也对其处理能力提出了高要求，尤其是在处理不同领域的文本时，如何保持一致性和准确性是一个持续的挑战。

常用场景

经典使用场景

OneStopEnglish语料库在自然语言处理领域中，主要用于自动可读性评估和文本简化任务。该数据集通过提供不同阅读难度的文本，支持研究者开发和评估文本简化模型，从而帮助提升非母语英语学习者的阅读体验。其经典使用场景包括构建和测试基于机器学习的文本简化系统，以及研究不同阅读水平文本之间的语义和句法差异。

解决学术问题

OneStopEnglish语料库解决了自动可读性评估和文本简化领域的关键学术问题。通过提供多层次的文本数据，该数据集使得研究者能够深入探讨如何自动识别和调整文本的复杂度，以适应不同阅读能力的学习者。这不仅推动了自然语言处理技术的发展，还为教育领域的个性化学习提供了理论支持。

实际应用

在实际应用中，OneStopEnglish语料库被广泛用于开发英语学习辅助工具。例如，它可以用于构建智能文本简化系统，帮助非母语学习者更容易理解复杂文本。此外，该数据集还可用于设计个性化阅读材料，根据学习者的英语水平自动调整文本难度，从而提升学习效率和阅读体验。

数据集最近研究