llm-aes/asap-8-original

Name: llm-aes/asap-8-original
Creator: llm-aes
Published: 2024-01-14 02:55:37
License: 暂无描述

Hugging Face2024-01-14 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/llm-aes/asap-8-original

下载链接

链接失效反馈

官方服务：

资源简介：

--- dataset_info: features: - name: essay_id dtype: int64 - name: essay_set dtype: int64 - name: essay dtype: string - name: rater1_domain1 dtype: int64 - name: rater2_domain1 dtype: int64 - name: domain1_score dtype: int64 - name: rater1_trait1 dtype: float64 - name: rater1_trait2 dtype: float64 - name: rater1_trait3 dtype: float64 - name: rater1_trait4 dtype: float64 - name: rater1_trait5 dtype: float64 - name: rater1_trait6 dtype: float64 - name: rater2_trait1 dtype: float64 - name: rater2_trait2 dtype: float64 - name: rater2_trait3 dtype: float64 - name: rater2_trait4 dtype: float64 - name: rater2_trait5 dtype: float64 - name: rater2_trait6 dtype: float64 - name: rubrics dtype: string - name: prompt dtype: string - name: __index_level_0__ dtype: int64 splits: - name: train num_bytes: 2672885 num_examples: 723 download_size: 1352624 dataset_size: 2672885 configs: - config_name: default data_files: - split: train path: data/train-* ---

This dataset is primarily used for essay scoring and analysis, containing detailed information and scoring data of essays, suitable for developing and evaluating essay scoring models.

提供机构：

llm-aes

原始信息汇总

数据集概述

数据特征

essay_id: 文章ID，数据类型为 int64
essay_set: 文章集，数据类型为 int64
essay: 文章内容，数据类型为 string
rater1_domain1: 评分者1的领域1评分，数据类型为 int64
rater2_domain1: 评分者2的领域1评分，数据类型为 int64
domain1_score: 领域1的最终评分，数据类型为 int64
rater1_trait1 至 rater1_trait6: 评分者1的特征评分，数据类型为 float64
rater2_trait1 至 rater2_trait6: 评分者2的特征评分，数据类型为 float64
rubrics: 评分标准，数据类型为 string
prompt: 提示信息，数据类型为 string
index_level_0: 索引级别0，数据类型为 int64

数据分割

train: 训练集，包含723个样本，占用2672885字节

数据集大小

下载大小: 1352624字节
数据集大小: 2672885字节

配置

default: 默认配置，包含训练集数据文件路径为 data/train-*

搜集汇总

数据集介绍

构建方式

在自动作文评分（Automated Essay Scoring, AES）领域，高质量标注数据集的构建是模型性能提升的基石。llm-aes/asap-8-original数据集源自著名的ASAP（Automated Student Assessment Prize）竞赛，专门聚焦于第8个作文题目的原始评分数据。该数据集通过收集学生在特定提示（prompt）下撰写的议论文，并邀请两位专业评分员（rater1与rater2）对每篇作文进行多维度评估。除了传统的整体性领域1评分（domain1_score），还细化了六个写作特质（trait1至trait6）的评分，涵盖内容、组织、风格等层面，并保留了原始评分标准（rubrics）与作文提示，确保数据构建的严谨性与可复现性。

特点

该数据集的核心特点在于其多维评分体系与原始评分数据的完整性。与传统仅提供单一总分的语料不同，asap-8-original包含了两位评分员对同一篇作文的独立评分，以及经过协商后的最终领域1得分，为研究评分者间信度提供了宝贵资源。此外，六个写作特质的连续型评分（float64）使得模型能够学习更细粒度的写作能力评估，而非仅预测总分。数据集包含723个训练样本，规模适中但标注深度极高，适用于验证小样本情境下的AES模型泛化能力，或作为迁移学习的基准。

使用方法

使用该数据集时，研究者可直接通过HuggingFace Datasets库加载默认配置下的训练集，数据以parquet格式存储，包含作文文本（essay）、提示（prompt）及完整评分标签。典型的应用流程包括：提取essay字段作为模型输入，以domain1_score或任一特质的评分作为回归目标进行微调。由于数据集已提供标准化字段，开发者可便捷地构建序列分类或回归任务，并利用rater1_domain1与rater2_domain1计算评分者一致性指标。此外，rubrics字段可用于辅助模型理解评分标准，prompt字段则支持提示感知的作文评估研究。

背景与挑战

背景概述

在自然语言处理与教育评估的交叉领域中，自动化作文评分（Automated Essay Scoring, AES）一直是备受瞩目的研究方向。llm-aes/asap-8-original 数据集源自 Automated Student Assessment Prize（ASAP）竞赛，由多家教育研究机构于2012年左右联合创建，旨在为机器评分系统提供高质量的基准测试资源。该数据集聚焦于八年级学生的议论文写作，包含723篇经过双重人工评分的作文样本，每篇作文均依据六个写作特质（如观点清晰度、论据支持、语言组织等）进行细粒度标注。这些特质评分不仅反映了整体写作水平，更揭示了不同维度下的语言能力表现，为研究如何利用大语言模型（LLM）模拟人类评分者提供了关键数据支撑。该数据集的发布推动了AES系统从单一整体评分向多维度、可解释性评估的演进，对教育技术领域产生了深远影响。

当前挑战

llm-aes/asap-8-original 数据集所面临的挑战首先体现在领域核心问题上：如何让自动化评分系统准确捕捉人类评分者对于议论文写作质量的多维度判断，尤其是在特质评分（如逻辑连贯性、语法准确性）与整体分数之间的非线性关系建模上。此外，构建过程中的挑战也不容忽视：原始数据仅包含723个样本，规模较小且来自单一八年级学生群体，导致模型泛化能力受限；同时，双评分的差异（如 rater1_domain1 与 rater2_domain1 的不一致）揭示了人工评分的主观性，而数据集未提供评分者间信度指标，增加了模型训练中的噪声处理难度。最后，作文提示（prompt）与评分量规（rubrics）的多样性不足，使得基于此数据集训练的模型在面对不同写作任务时易出现适应性瓶颈。

常用场景

经典使用场景

在自然语言处理与教育评估的交叉领域中，llm-aes/asap-8-original数据集作为自动作文评分（Automated Essay Scoring, AES）的基准资源，被广泛用于训练和评估机器学习模型对议论文、说明文等不同类型作文的评分能力。该数据集包含来自八个作文题目的学生习作，每篇作文均附有两位评分员在六个写作特质上的细粒度评分以及最终的综合分数，为研究者提供了丰富的标注信息以探索多维度评分机制。

衍生相关工作

基于该数据集，衍生了一系列经典工作，如使用长短期记忆网络（LSTM）和Transformer架构进行端到端评分的研究，以及引入对抗训练和注意力机制以提升模型鲁棒性的方法。此外，有工作探索了多任务学习框架，同时预测综合分数与六个写作特质分数，进一步提高了评分解释性。这些工作不仅在学术会议上发表，还催生了如ASAP竞赛等基准评测，推动了AES领域的持续创新。

数据集最近研究