CEFR-ASAG CORPUS
收藏github2021-12-18 更新2024-05-31 收录
下载链接:
https://github.com/anaistack/cefr-asag-corpus
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含非英语母语者撰写的短文本,每个参与者被要求对一个开放式问题提供简短回答,该问题针对其被放置的语言熟练度水平。每个问题都根据欧洲共同框架参考语言(CEFR)定义的特定熟练度水平进行标记。此外,收集的299个答案还由三名CEFR认证考官使用CEFR进行了标记,并添加了他们的标签和多数投票标签。所有文本均采用TEI格式编码。
This dataset comprises short texts authored by non-native English speakers, wherein each participant was prompted to provide a brief response to an open-ended question tailored to their language proficiency level. Each question is annotated according to specific proficiency levels as defined by the Common European Framework of Reference for Languages (CEFR). Furthermore, the 299 collected responses were also annotated by three CEFR-certified examiners using the CEFR standards, incorporating their individual labels and a majority-voted label. All texts are encoded in TEI format.
创建时间:
2021-12-18
原始信息汇总
数据集概述
数据集名称
CEFR-ASAG CORPUS
数据集版本
1.0.1
数据集内容
- 包含非英语母语者撰写的短文本。
- 每个参与者针对一个开放性问题提供短答案,问题根据CEFR(Common European Framework of Reference for Languages)定义的熟练度级别进行标记。
- 299个答案由三位CEFR认证的考官进行标记,并附有大多数投票的标签。
数据集格式
所有文本采用TEI格式编码。
数据集使用许可
本作品采用Creative Commons Attribution-NonCommercial-ShareAlike 4.0 International License。
数据集变更日志
- 1.0.1 (2017-10-16): 所有个人详细信息已匿名化。
- 1.0.0 (2017-09-08): 首次发布数据集。
搜集汇总
数据集介绍

构建方式
CEFR-ASAG CORPUS数据集的构建基于非英语母语者的短文本回答,这些回答针对不同英语熟练度水平的开放性问题。每个问题均根据《欧洲语言共同参考框架》(CEFR)标注了相应的熟练度等级。此外,299份回答由三位CEFR认证考官进行标注,并附有多数投票结果。所有文本均采用TEI格式编码,确保了数据的标准化和可扩展性。
特点
该数据集的特点在于其文本的多样性和标注的权威性。文本由不同英语熟练度的非母语者撰写,涵盖了从初级到高级的多个CEFR等级。每个文本不仅标注了CEFR等级,还包含了三位考官的独立评分及多数投票结果,提供了多层次的评估视角。这种多维度标注方式为研究语言学习和自动评分系统提供了丰富的数据支持。
使用方法
CEFR-ASAG CORPUS数据集适用于语言学习、自动评分系统及自然语言处理领域的研究。用户可通过解析TEI格式的文本数据,获取每篇回答的CEFR等级及考官评分。研究者在引用该数据集时,需参考相关论文并遵循Creative Commons Attribution-NonCommercial-ShareAlike 4.0 International License的许可协议。该数据集的使用不仅限于学术研究,还可用于开发语言学习工具和评估系统。
背景与挑战
背景概述
CEFR-ASAG CORPUS数据集由ALTISSIA International s.a.与比利时鲁汶大学自然语言处理中心(CENTAL)于2017年联合创建,旨在为非母语英语学习者的短文本答案提供基于《欧洲语言共同参考框架》(CEFR)的自动评分支持。该数据集包含由非母语英语学习者撰写的短文本,每篇文本均标注了相应的CEFR语言水平等级。此外,299篇文本由三位CEFR认证考官进行人工评分,并提供了多数投票的标签。该数据集的研究成果发表于2017年的自然语言处理教育应用研讨会,为语言能力评估和自动化评分系统的开发提供了重要参考。
当前挑战
CEFR-ASAG CORPUS数据集的核心挑战在于如何准确评估非母语英语学习者的语言能力,并实现自动化评分。首先,语言能力评估本身具有主观性,不同考官对同一文本的评分可能存在差异,这为自动化模型的训练带来了不确定性。其次,构建过程中需确保数据的多样性和代表性,以覆盖不同CEFR等级的学习者。此外,文本的匿名化处理也对数据的可用性和隐私保护提出了挑战。这些问题的解决对于提升自动化评分系统的准确性和可靠性至关重要。
常用场景
经典使用场景
CEFR-ASAG CORPUS数据集广泛应用于自动评分系统(ASAG)的研究与开发中,尤其是在非母语英语学习者的短文本评分领域。该数据集通过提供标注了CEFR等级的学生答案,为研究者提供了一个标准化的基准,用于训练和评估自动评分模型。这些模型能够根据CEFR框架对学生的语言能力进行精确分级,从而在教育技术领域具有重要应用价值。
解决学术问题
CEFR-ASAG CORPUS数据集解决了自动评分系统中语言能力评估的标准化问题。通过提供由CEFR认证考官标注的短文本数据,该数据集为研究者提供了一个可靠的基准,用于开发能够准确评估非母语英语学习者语言水平的算法。这不仅推动了自动评分技术的发展,还为语言教育领域的个性化学习提供了技术支持。
衍生相关工作
CEFR-ASAG CORPUS数据集衍生了许多经典研究工作,尤其是在自然语言处理(NLP)和教育技术领域。例如,基于该数据集的研究成果被用于改进自动评分算法的准确性和鲁棒性。此外,该数据集还激发了多篇关于语言能力评估和个性化学习路径设计的学术论文,推动了相关领域的进一步发展。
以上内容由遇见数据集搜集并总结生成



