CEFR, CLEO, CLOTH, NES, OSP, RACE

github2023-09-13 更新2024-05-31 收录

下载链接：

https://github.com/zimzsh/Cross-corpus-readability-compatibility-assessment-for-English-texts

下载链接

链接失效反馈

官方服务：

资源简介：

我们使用了六个数据集进行可读性研究。CEFR是一个国际公认的语言能力标准，分为六个级别，从初学者到专业级别。CLEO是基于学习者英语写作的语料库，包含五个级别，包括中学生、大学英语四六级、初级和高级专业英语。CLOTH是一个大规模的英语填空测试集，分为初中和高中两个年级。NES语料库由新闻文章组成，覆盖了从年级开始的文章。OSP和RACE数据集的描述未在提供的内容中给出。

We utilized six datasets for readability research. CEFR is an internationally recognized standard for language proficiency, divided into six levels ranging from beginner to professional. CLEO is a corpus based on English writing by learners, encompassing five levels, including middle school students, college English levels four and six, and basic and advanced professional English. CLOTH is a large-scale English cloze test set, categorized into junior and senior high school grades. The NES corpus consists of news articles, covering texts from the beginning grade levels. Descriptions for the OSP and RACE datasets were not provided in the content.

创建时间：

2023-06-11

原始信息汇总

数据集概述

数据集名称

Cross-corpus-readability-compatibility-assessment-for-English-texts

背景

本研究关注文本可读性评估的跨语料库兼容性问题，提出了一个新的评估框架CRCA，用于评估不同语料库间的兼容性。

数据集内容

语料库

CEFR: 描述语言能力和级别的国际标准，分为六个级别。
CLEC: 基于学习者英语写作的语料库，包含五个级别。
CLOTH: 大型英语完形填空测试集，分为初中和高中两个级别。
NES: 包含从二年级到十二年级的不同级别新闻文章。
OSP: 包含初级、中级和高级三个阅读难度级别，每个级别189篇文本。
RACE: 来自中国中学生英语考试的阅读理解材料，分为初中和高中两个级别。

特征

词汇特征: 如平均音节数每词、平均字母数每词等。
句法特征: 如长句百分比、平均词数每句等。
语法特征: 如名词百分比、代词百分比等。

框架

研究框架包括特征提取、词向量表示、特征融合、模型训练、可读性预测和可读性系统兼容性评估六个步骤。

模型

机器学习模型: XGBoost, SVM
深度学习模型: BiLSTM, Attention-BiLSTM

结果

研究使用了三种实验组合对六个语料库进行可读性评估，并采用RJSD、RRNSS和NDCG三种评估指标来评估预测结果的兼容性。具体结果包括RJSD评估的兼容性结果，详细数据见论文。

搜集汇总

数据集介绍

构建方式

该数据集的构建基于六个不同的语料库，包括CEFR、CLEC、CLOTH、NES、OSP和RACE。首先，通过数据清洗和预处理步骤，确保语料库的原始文件格式统一且适合后续分析。接着，使用传统的可读性公式对语料库进行评估，并提取了词汇、句法和语义特征。此外，还采用了GloVe词向量表示方法，并将这些特征与语言特征进行融合，形成综合特征集。最后，通过机器学习（如XGBoost、SVM）和深度学习（如BiLSTM、Attention-BiLSTM）模型进行训练和预测，以评估语料库之间的兼容性。

特点

该数据集的特点在于其多样性和广泛的应用场景。六个语料库涵盖了从初学者到专业水平的英语文本，适用于不同层次的语言学习者。数据集不仅包含了丰富的语言特征，如词汇复杂度、句法结构和语义信息，还结合了GloVe词向量表示，提供了多维度的特征表示。此外，数据集还引入了跨语料库兼容性评估框架，通过RJSD、RRNSS和NDCG等指标，验证了不同语料库之间的兼容性，为跨语料库迁移学习提供了有力支持。

使用方法

该数据集的使用方法主要分为三个步骤。首先，用户可以通过提供的Jupyter Notebook文件进行数据预处理和特征提取，确保数据格式和特征集的一致性。接着，用户可以选择使用机器学习或深度学习模型进行训练和预测，模型文件已包含XGBoost、SVM、BiLSTM和Attention-BiLSTM等算法的实现。最后，用户可以通过评估模块，使用RJSD、RRNSS和NDCG等指标对模型的预测结果进行兼容性评估，并通过热图等可视化工具展示评估结果。整个过程旨在帮助用户更好地理解语料库之间的兼容性，并为跨语料库迁移学习提供参考。

背景与挑战

背景概述

文本可读性评估作为自然语言处理领域的重要研究方向，近年来吸引了国际研究者的广泛关注。CEFR、CLEO、CLOTH、NES、OSP、RACE等数据集的研究背景可追溯至不同语言学习与评估框架的构建需求。这些数据集由多个研究机构与学者共同开发，旨在为英语文本的可读性评估提供多样化的语料支持。其中，CEFR作为欧洲语言共同参考框架，提供了从初级到专业水平的六级语言文本；CLEC则聚焦于中国学习者的英语写作语料；CLOTH、NES、OSP和RACE分别从填空测试、新闻文章和考试材料等不同角度丰富了可读性研究的语料库。这些数据集的构建为跨语料库可读性兼容性评估（CRCA）提供了重要基础，推动了文本可读性评估方法的创新与应用。

当前挑战

在跨语料库可读性兼容性评估的研究中，主要面临两大挑战。首先，不同语料库之间的兼容性问题显著，例如OSP数据集与其他常用语料库在特征分布上存在显著差异，这为模型在不同语料库上的泛化能力提出了严峻考验。其次，在数据集构建过程中，如何有效提取并融合词汇、句法和语义等多层次特征，以及如何选择合适的机器学习与深度学习方法进行模型训练，均是需要解决的技术难题。此外，评估指标的选择与优化也至关重要，RJSD、RRNSS和NDCG等指标的引入虽然为兼容性评估提供了量化依据，但其在不同语料库上的表现仍需进一步验证与优化。这些挑战不仅影响了模型的预测精度，也对跨语料库迁移学习的研究提出了更高的要求。

常用场景

经典使用场景

在文本可读性评估领域，CEFR、CLEO、CLOTH、NES、OSP和RACE数据集被广泛应用于跨语料库兼容性评估研究。这些数据集通过提取词汇、句法和语义特征，结合机器学习和深度学习方法，如XGBoost、SVM、BiLSTM和Attention-BiLSTM，进行文本可读性预测。经典使用场景包括教育领域的阅读材料分级、语言学习平台的个性化推荐以及新闻文章的可读性优化。

衍生相关工作

基于CEFR等数据集的跨语料库兼容性评估研究，衍生了一系列经典工作。例如，研究者提出了基于GloVe词向量和特征融合的混合模型，进一步提升了文本可读性预测的准确性。此外，RJSD、RRNSS和NDCG等兼容性评估指标的应用，为跨语料库迁移学习提供了新的评估标准。这些工作不仅推动了文本可读性评估领域的发展，也为自然语言处理中的其他任务提供了借鉴。

数据集最近研究