ELLIPSE-Corpus

github2024-05-20 更新2024-05-31 收录

下载链接：

https://github.com/scrosseye/ELLIPSE-Corpus

下载链接

链接失效反馈

官方服务：

资源简介：

ELLIPSE语料库是一个免费提供的语料库，包含约6,500份英语学习者的写作样本，这些样本已被评分用于整体语言熟练度以及与连贯性、句法、词汇、短语学、语法和约定相关的分析熟练度分数。此外，该语料库还提供了语料库中英语学习者的个人和人口统计信息，包括经济状况、性别、年级水平（8-12年级）和种族/民族。该语料库为个人作者提供语言熟练度分数，并旨在推动语料库和NLP方法在评估整体和更精细熟练度特征方面的研究。

The ELLIPSE corpus is a freely available corpus comprising approximately 6,500 writing samples from English learners. These samples have been scored for overall language proficiency as well as for analytical proficiency scores related to coherence, syntax, vocabulary, phraseology, grammar, and conventions. Additionally, the corpus provides personal and demographic information about the English learners in the corpus, including economic status, gender, grade level (grades 8-12), and race/ethnicity. The corpus offers language proficiency scores for individual authors and aims to advance research in corpus and NLP methods for assessing both overall and more nuanced proficiency characteristics.

创建时间：

2023-02-18

原始信息汇总

ELLIPSE-Corpus 数据集概述

数据集名称

名称: English Language Learner Insight, Proficiency and Skills Evaluation (ELLIPSE) Corpus

数据集内容

样本数量: 约6,500个英语学习者写作样本
评分内容: 整体语言熟练度评分及分析性熟练度评分，包括连贯性、句法、词汇、短语学、语法和规范性。
附加信息: 提供作者的个体和人口统计信息，如经济状况、性别、年级（8-12年级）和种族/民族。

数据集用途

研究目的: 用于推进基于语料库和自然语言处理方法的总体及更细致的语言熟练度评估研究。

数据集版本

包含内容: 包含文本及可靠文本的平均分数，以及最终ELLIPSE语料库的评分标准。
额外文件: 包含约9,000篇论文及其个体评分，其中部分因文本或评分者层面的不可靠性未被纳入最终语料库。

数据集发布与引用

发布年份: 2023年
引用文献: Crossley, S. A., et al. (2023). Measuring second language proficiency using the English Language Learner Insight, Proficiency and Skills Evaluation (ELLIPSE) Corpus. International Journal of Learner Corpus Research, 9(2), 248-269.

数据集许可

许可类型: CC BY-NC-SA 4.0 DEED

搜集汇总

数据集介绍

构建方式

ELLIPSE-Corpus的构建基于对约6,500份英语学习者（ELL）写作样本的全面评估，这些样本不仅被赋予了整体语言能力的综合评分，还包含了针对连贯性、句法、词汇、短语结构、语法和惯例等方面的分析性评分。此外，该数据集还收集了作者的个体和人口统计信息，如经济状况、性别、年级（8-12年级）和种族/民族。通过这些多维度的评分和详细信息，ELLIPSE-Corpus旨在推动对语言能力更细致入微的研究，特别是在自然语言处理（NLP）和语料库分析领域。

特点

ELLIPSE-Corpus的显著特点在于其多层次的评分体系和丰富的元数据。该数据集不仅提供了整体语言能力的评分，还细分了多个语言技能的分析性评分，如连贯性、句法、词汇等，这为研究者提供了深入分析语言学习者能力的工具。此外，数据集中包含的个体和人口统计信息，使得研究者能够探索这些因素对语言学习的影响，从而为个性化教学和评估提供数据支持。

使用方法

使用ELLIPSE-Corpus时，研究者可以通过访问GitHub仓库获取数据集文件，包括训练数据和测试数据。需要注意的是，测试数据文件是加密的，需使用特定软件（如7-Zip或Keka）并输入密码‘ellipse_test’进行解密。此外，数据集中还包含一个包含所有论文及其单独评分的文件，该文件同样需要密码‘ellipse_raw_data’进行解密。研究者可以利用这些数据进行语言能力评估模型的训练和验证，或进行语言学习者特征的深入分析。

背景与挑战

背景概述

ELLIPSE-Corpus，全称为English Language Learner Insight, Proficiency and Skills Evaluation Corpus，是由Crossley等人于2023年发布的一个公开数据集。该数据集包含约6,500份英语作为第二语言学习者的写作样本，这些样本不仅被评估了整体语言熟练度，还通过分析性评分涵盖了诸如连贯性、句法、词汇、短语结构、语法和惯例等多个细粒度特征。此外，数据集还提供了作者的个体和人口统计信息，如经济状况、性别、年级（8-12年级）和种族/民族。ELLIPSE-Corpus的开发旨在推动基于语料库和自然语言处理（NLP）方法的研究，以评估语言熟练度的整体和更细致的特征，对语言学习和教育研究领域具有重要影响。

当前挑战

ELLIPSE-Corpus在构建过程中面临了多重挑战。首先，确保写作样本的可靠性和评分的一致性是一个关键问题，许多样本因文本或评分者层面的不可靠性而被排除。其次，处理和整合来自不同评分者的数据，确保评分的准确性和一致性，也是一个技术难题。此外，保护作者的隐私和数据安全，特别是在处理包含敏感个人信息的数据时，也是一个重要的挑战。最后，如何有效地利用这些数据进行语言熟练度的评估和预测，尤其是在多维度评分的情况下，仍然是一个开放的研究问题。

常用场景

经典使用场景

ELLIPSE-Corpus的经典使用场景主要集中在英语作为第二语言（ELL）学习者的语言能力评估。该数据集通过提供约6,500份ELL写作样本，结合整体语言熟练度和更细致的分析性评分（如连贯性、句法、词汇、短语结构、语法和惯例），为研究者提供了一个全面的语言能力评估框架。这些数据不仅支持对个体学习者的语言熟练度进行深入分析，还为开发和验证自然语言处理（NLP）模型提供了宝贵的资源，特别是在自动评分系统和语言学习辅助工具的开发中。

解决学术问题

ELLIPSE-Corpus解决了多个重要的学术研究问题，特别是在第二语言习得（SLA）和语言评估领域。首先，它为研究者提供了一个大规模、多维度的数据集，用于探索和验证不同语言技能的评估方法。其次，该数据集有助于解决现有语言评估工具中存在的偏见和一致性问题，通过提供详细的评分标准和多层次的评分数据，增强了评估的客观性和准确性。此外，ELLIPSE-Corpus还为研究者提供了一个平台，用于开发和测试新的NLP技术，以提高语言评估的自动化水平。

衍生相关工作

ELLIPSE-Corpus的发布催生了一系列相关的经典工作，特别是在语言评估和自然语言处理领域。研究者们利用该数据集开发了多种自动评分模型，这些模型不仅能够评估整体语言熟练度，还能对具体的语言技能（如语法、词汇和连贯性）进行细致分析。此外，ELLIPSE-Corpus还激发了对多维度语言评估方法的研究，推动了新的评估框架和标准的制定。在教育技术领域，基于该数据集的研究成果已被应用于开发智能学习系统和在线评估工具，显著提升了语言学习的个性化和效率。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集