ASAP 2.0 corpus

github2025-02-01 更新2025-02-10 收录

下载链接：

https://github.com/scrosseye/ASAP_2.0

下载链接

链接失效反馈

官方服务：

资源简介：

ASAP 2.0语料库包括来自6年级、8年级、9年级和10年级学生的24,278篇说服性作文，这些作文是从标准化写作测试中收集的，并包含了丰富的作者背景信息。

The ASAP 2.0 Corpus comprises 24,278 persuasive essays written by students in grades 6, 8, 9, and 10. These essays were collected from standardized writing assessments and contain rich background information about the student authors.

创建时间：

2025-01-31

原始信息汇总

ASAP_2.0 数据集概述

数据集简介

数据集名称：ASAP_2.0
数据集构成：包含24,278篇来自标准化写作测试的劝说性作文，由6、8、9、10年级学生的作品组成。
数据来源：部分来源于PERSUADE 2.0数据集，部分为新收录。
作文特点：所有作文均为基于来源的，要求学生阅读并整合来源信息。

数据规模

总作文数：24,278篇
来自PERSUADE 2.0的作文数：12,871篇
新收录作文数：11,829篇

数据内容

包含信息：作文质量的人类评分、评分量表、作文文本及元数据。
数据格式：分为两个数据框架。
- ASAP_2_Final_github_train.csv：包含所有训练数据及元数据。
- ASAP_2_Final_github_test.zip：包含所有测试数据及元数据，为加密文件。

数据加密

加密文件密码：asap2_test
解密软件推荐：Windows使用7-Zip，Mac使用Keka。

版权信息

授权协议：CC BY-NC-SA 4.0 国际许可协议
授权协议链接：点击访问

搜集汇总

数据集介绍

构建方式

ASAP 2.0语料库的构建采取了对标准化写作测试中的说服性作文进行汇编的方式，共计收集了6、8、9、10年级学生的24,278篇作文。这些作文均源于学生的阅读和整合信息能力，需将来源信息融入其回应之中。该构建过程涉及七个不同的写作提示，并从PERSUADE 2.0语料库中选取了12,871篇作文，同时新增了11,829篇未曾发布的作文，旨在最大化每位作者的背景信息量，如英语学习者状态、经济背景、残疾状况、种族/民族、性别和年级水平。

特点

该数据集的特点在于其丰富的学生背景信息，这对于研究教育成就和写作能力的关联提供了宝贵的资源。同时，数据集的作文覆盖了不同的年级和多样化的写作提示，确保了数据的多样性和广泛性。尽管部分作文缺少经济或残疾状况的信息，但整体上，该数据集为研究标准化写作测试提供了一个全面且具有深度的基础。

使用方法

使用ASAP 2.0语料库时，研究者可以访问到包含文本和作文质量人工评分的完整语料库，以及评分者所使用的评分量表。该语料库分为两个数据框：ASAP_2_Final_github_train.csv包含所有训练数据和元数据，而ASAP_2_Final_github_test.zip是一个加密的压缩文件，包含所有测试数据和元数据。解压该测试数据集需使用特定的软件，并输入密码'asap2_test'。此外，该数据集遵循知识共享署名-非商业性使用-相同方式共享4.0国际许可协议，保障了数据的合法使用和共享。

背景与挑战

背景概述

ASAP 2.0语料库的构建，起源于对标准化写作测试中说服性论文的深入研究，旨在推进教育评估和自然语言处理领域的发展。该数据集由24,278篇来自6至10年级学生的论文组成，采集自州级别的标准化写作测试。所有论文均为基于来源的写作，要求学生阅读并整合来源信息于其回应中。该数据集的创建，可追溯至Crossley等研究人员的贡献，并在2024年的PERSUADE 2.0语料库基础上进一步扩充。ASAP 2.0不仅关注学生的写作质量，还通过丰富的人口统计信息，如英语学习者状态、经济背景、残疾状况、种族/民族、性别和年级水平，对论文作者进行深入分析。然而，数据集中部分论文在经济社会地位和残疾状况的信息上存在缺失，这为研究人员提出了在数据完整性与可用性之间的权衡问题。ASAP 2.0语料库的建立，对理解学生写作能力、评估教育成果以及促进相关教育政策制定具有重要的研究价值。

当前挑战

在数据集构建过程中，研究人员面临了诸多挑战。首先，如何确保所收集论文的质量和多样性，以反映不同年级和背景学生的写作能力，是一大难题。其次，整合和标注人口统计信息时，数据的不完整性对数据集的可用性构成了挑战。此外，数据集的构建还需考虑到隐私保护和伦理问题，尤其是在涉及未成年学生的个人信息时。在研究领域问题方面，ASAP 2.0语料库旨在解决如何准确评估学生写作能力的问题，这要求开发高效的自然语言处理模型，以处理大量文本数据，并从中提取有意义的评估指标。同时，如何平衡模型的复杂性与评估的准确性，也是当前研究中的一个重要挑战。

常用场景

经典使用场景

在自然语言处理及教育评估领域，ASAP 2.0语料库的经典使用场景主要在于文本分析、作文评分系统的研究与开发。该语料库提供了标准化写作测试中的说服性作文，包含学生必须整合的来源信息，为构建和优化自动评分模型提供了丰富的训练和测试资源。

衍生相关工作

基于ASAP 2.0语料库，研究者们开展了一系列相关工作，包括开发新的自动评分模型、探索作文质量与学生学习背景之间的关系，以及分析不同评分标准对评分结果的影响，推动了教育评估领域的研究进展。

数据集最近研究