CEFR, CLEC, CLOTH, NES, OSP, RACE

github2023-06-13 更新2024-05-31 收录

下载链接：

https://github.com/zhen-upup/CRCA

下载链接

链接失效反馈

官方服务：

资源简介：

我们使用了六个数据集进行可读性研究。源文件可以从百度云获取。CEFR是描述语言能力和水平的国际标准，根据不同难度的语言文本将六个级别划分为从初学者到专业水平。CLEC是基于学习者英语写作的语料库，包括五个级别的语料库，涵盖中学生、大学英语四六级、初级和高级专业英语。CLOTH是一个大规模的英语完形填空测试集，分为初中和高中两个年级。NES语料库由新闻文章组成，覆盖了从小学到高中的文章。OSP和RACE未提供详细描述。

We utilized six datasets for readability research. The source files can be obtained from Baidu Cloud. The CEFR (Common European Framework of Reference for Languages) is an international standard for describing language ability and proficiency, categorizing six levels from beginner to professional based on the difficulty of language texts. The CLEC (Chinese Learner English Corpus) is a corpus based on English writing by learners, including five levels of corpora that cover middle school students, college English levels four and six, as well as basic and advanced professional English. CLOTH is a large-scale English cloze test set, divided into junior and senior high school grades. The NES corpus consists of news articles, covering articles from elementary to high school levels. Detailed descriptions for OSP and RACE are not provided.

创建时间：

2023-05-28

原始信息汇总

数据集概述

数据集名称

Cross-corpus-readability-compatibility-assessment-for-English-texts

背景

本研究关注文本可读性评估的跨语料库兼容性，提出了一种新的评估框架CRCA。
涉及的语料库包括CEFR, CLEC, CLOTH, NES, OSP, RACE。
使用了GloVe词向量表示和融合特征。
分类模型采用机器学习方法（XGBoost, SVM）和深度学习方法（BiLSTM, Attention-BiLSTM）。
兼容性度量使用RJSD, RRNSS, NDCG。

数据集内容

语料库

CEFR: 描述语言熟练度和级别的国际标准，分为六个级别。
CLEC: 基于学习者英语写作的语料库，包含五个级别。
CLOTH: 大型英语完形填空测试集，分为初中和高中两个级别。
NES: 包含从2年级到12年级不同级别的新闻文章。
OSP: 包含三个阅读难度级别，每个级别189篇文章。
RACE: 来自中国中学英语考试的阅读理解材料，分为初中和高中两个级别。

特征

特征分为词汇特征、句法特征和语法特征。
具体特征包括平均音节数每词、平均字母数每词、困难词百分比等。

框架

提出的方法包括特征提取、词向量表示、特征融合、模型训练、可读性预测和可读性系统兼容性评估六个步骤。

模型

机器学习模型：XGBoost, SVM。
深度学习模型：Bi-LSTM, ATT-BI-LSTM。

结果

使用三种实验组合对六个语料库进行可读性评估。
使用RJSD, RRNSS, NDCG三种评估指标评估预测结果的兼容性。
展示了RJSD评估的部分结果，详细结果见论文。

搜集汇总

数据集介绍

构建方式

该数据集的构建基于六个广泛使用的英语文本语料库，包括CEFR、CLEC、CLOTH、NES、OSP和RACE。研究团队首先对这些语料库进行了数据清洗和预处理，随后提取了词汇、句法和语义等多层次的语言特征。此外，还采用了GloVe词向量表示方法，并将语言特征与词向量特征进行融合，以增强模型的表达能力。通过机器学习（如XGBoost、SVM）和深度学习（如BiLSTM、Attention-BiLSTM）方法，构建了跨语料库文本可读性兼容性评估模型。

特点

该数据集的特点在于其多样性和广泛性，涵盖了从初学者到专业水平的多个语言难度层次。每个语料库均具有独特的语言特征和难度分布，例如CEFR基于国际语言能力标准，CLEC则聚焦于中国学习者的英语写作。此外，数据集还提供了丰富的特征提取结果，包括词汇特征（如平均音节数、复杂词比例）、句法特征（如长句比例、名词短语数量）以及语义特征（如GloVe词向量）。这些特征为跨语料库的可读性评估提供了坚实的基础。

使用方法

该数据集的使用方法主要分为三个步骤：首先，用户可以通过提供的Jupyter Notebook文件进行数据预处理和特征提取；其次，利用机器学习或深度学习模型对语料库的可读性进行预测；最后，通过RJSD、RRNSS和NDCG等兼容性评估指标对模型的预测结果进行评估。研究团队还提供了基于XGBoost的演示代码，方便用户快速上手跨语料库可读性评估任务。此外，用户可以通过热力图等可视化工具直观地分析不同语料库之间的兼容性差异。

背景与挑战

背景概述

文本可读性评估作为自然语言处理领域的重要研究方向，近年来受到国际研究者的广泛关注。CEFR、CLEC、CLOTH、NES、OSP和RACE六个数据集构成了跨语料库可读性兼容性评估（CRCA）任务的核心数据基础。该研究由多个国际研究团队共同推进，旨在解决不同语料库之间的兼容性问题，探索语料库选择、特征表示和分类方法之间的适配效应。通过融合语言学特征与GloVe词向量表示，结合机器学习与深度学习方法，研究验证了语料库兼容性评估的稳健性，为跨语料库迁移学习提供了重要参考。

当前挑战

在跨语料库可读性评估任务中，主要挑战包括语料库之间的显著差异性和特征表示的适配性问题。例如，OSP数据集与其他常用语料库在可读性分布上存在显著差异，这增加了模型跨语料库迁移的难度。此外，特征提取过程中需平衡词汇、句法和语义特征的多样性，以确保模型在不同语料库上的泛化能力。构建过程中，研究者还需应对数据清洗、特征融合和模型选择的多重挑战，以实现兼容性评估的高效性和准确性。这些挑战不仅影响了模型的性能，也为未来研究提供了改进方向。

常用场景

经典使用场景

在文本可读性评估领域，CEFR、CLEC、CLOTH、NES、OSP和RACE数据集被广泛应用于跨语料库兼容性评估研究。这些数据集通过提取词汇、句法和语义特征，结合机器学习和深度学习方法，能够有效预测不同语料库中文本的可读性水平，并为语料库选择和特征表达提供科学依据。

衍生相关工作

基于该数据集的研究衍生了一系列经典工作，例如基于XGBoost和BiLSTM的跨语料库可读性预测模型，以及融合GloVe词向量和语言学特征的评估框架。这些工作不仅推动了文本可读性评估技术的发展，还为自然语言处理领域的其他任务提供了新的研究思路和方法。

数据集最近研究