LEAF

github2024-09-19 更新2024-09-20 收录

下载链接：

https://github.com/EducationalTestingService/LEAF

下载链接

链接失效反馈

官方服务：

资源简介：

LEAF数据集包含约6000篇英语作文及其相应的反馈，来源于EssayForum网站。该数据集对于开发个性化反馈生成系统非常有价值，可以解决作文中的语法修正、论证结构和连贯性等问题。

The LEAF dataset comprises roughly 6,000 English essays and their corresponding feedback, sourced from the EssayForum website. This dataset holds significant value for developing personalized feedback generation systems, as it can be used to address issues including grammatical correction, argumentative structure and coherence in essays.

创建时间：

2024-09-18

原始信息汇总

LEAF: Language Learners English Essays and Feedback Corpus

数据集概述

名称: LEAF
来源: 由Educational Testing Service提供，数据来源于EssayForum网站。
版本: 第二版，文件名为leaf.jsonl。
规模: 约6,000篇英语作文及其对应的反馈。
用途: 适用于开发个性化反馈生成系统，解决语法修正、论证结构和连贯性等问题。

数据集特点

反馈来源: 仅包含Educational Consultant Mary Rose提供的反馈，以确保高质量。
数据分割:
- 测试集: 500
- 开发集: 400
- 训练集: 4,018

数据清理

已通过启发式和命名实体识别系统去除噪音、论坛相关信息和个人姓名，但可能仍存在少量噪音。
学生提供的作文提示可能偶尔出现在essay_text字段的开始部分。

许可与使用条款

许可: CC-BY-NC-4.0
原始内容来源: EssayForum.com
使用条件: 可用于研究目的，需提供适当的归属。

引用

如使用该数据集，请引用以下论文:

Shabnam Behzad, Omid Kashefi, Swapna Somasundaran. 2024. LEAF: Language Learners English Essays and Feedback Corpus. In NAACL, pages 433–442, Mexico City, Mexico.

搜集汇总

数据集介绍

构建方式

LEAF数据集的构建基于从EssayForum网站收集的约6,000篇英语作文及其相应的反馈。为确保反馈质量，本版本仅包含教育顾问Mary Rose的评论，从而略微缩小了数据集规模。数据集经过精心清洗，去除了噪音、论坛相关信息及个人姓名，但仍可能存在少量残留噪音。此外，数据集被划分为训练集（4,018篇）、开发集（400篇）和测试集（500篇），以支持不同阶段的模型训练和评估。

使用方法

LEAF数据集适用于开发和评估个性化反馈生成系统，特别是在语法纠正、论点结构和作文连贯性等方面。研究者可以通过加载`leaf.jsonl`文件访问数据集，并根据需要进行预处理和分析。使用时，请遵守CC-BY-NC-4.0许可协议，并在研究中引用EssayForum网站及原始论文，以确保数据使用的合法性和透明性。

背景与挑战

背景概述

LEAF数据集，由Shabnam Behzad、Omid Kashefi和Swapna Somasundaran在2024年NAACL会议上提出，是一个专注于语言学习者英语作文及其反馈的语料库。该数据集包含了约6000篇来自EssayForum网站的英语作文及其相应的反馈，主要由教育顾问Mary Rose提供。LEAF数据集的创建旨在为个性化反馈生成系统的发展提供支持，特别是在语法修正、论点结构和作文连贯性等方面。这一数据集的发布，标志着在教育技术领域对语言学习者写作能力提升研究的重要进展。

当前挑战

尽管LEAF数据集在教育技术领域具有重要价值，但其构建过程中仍面临若干挑战。首先，数据集的反馈来源单一，主要依赖于Mary Rose的评论，这限制了反馈的多样性和全面性。未来版本计划引入更多教育者的反馈，以增强数据集的广泛适用性。其次，数据清理过程中虽已采用多种技术手段去除噪音和个人信息，但仍可能存在残留问题，这要求在数据使用时需谨慎处理。此外，作文提示在某些情况下可能仍出现在`essay_text`字段的开头，这为数据分析带来了额外的不确定性。

常用场景

经典使用场景

LEAF数据集在个性化反馈生成系统的发展中扮演了关键角色。通过提供约6,000篇英语作文及其对应的反馈，该数据集为研究者提供了丰富的语料库，用于训练和评估模型在语法修正、论证结构和作文连贯性等方面的表现。这些模型能够自动生成高质量的反馈，从而帮助语言学习者提升写作能力。

解决学术问题

LEAF数据集解决了自然语言处理领域中关于自动反馈生成的重要问题。通过提供高质量的作文及其反馈，该数据集为研究者提供了一个标准化的测试平台，用于开发和评估自动反馈生成系统。这不仅推动了个性化教育技术的发展，还为语言学习者提供了更为精准和有效的学习工具。

实际应用

LEAF数据集在实际应用中具有广泛的前景。教育机构和在线学习平台可以利用该数据集训练的模型，为学生提供即时且个性化的写作反馈，从而提高教学效率和学习效果。此外，该数据集还可用于开发智能写作辅助工具，帮助学生和专业写作者提升写作质量。

数据集最近研究