llm-aes/asap-8-original
收藏Hugging Face2024-01-14 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/llm-aes/asap-8-original
下载链接
链接失效反馈官方服务:
资源简介:
---
dataset_info:
features:
- name: essay_id
dtype: int64
- name: essay_set
dtype: int64
- name: essay
dtype: string
- name: rater1_domain1
dtype: int64
- name: rater2_domain1
dtype: int64
- name: domain1_score
dtype: int64
- name: rater1_trait1
dtype: float64
- name: rater1_trait2
dtype: float64
- name: rater1_trait3
dtype: float64
- name: rater1_trait4
dtype: float64
- name: rater1_trait5
dtype: float64
- name: rater1_trait6
dtype: float64
- name: rater2_trait1
dtype: float64
- name: rater2_trait2
dtype: float64
- name: rater2_trait3
dtype: float64
- name: rater2_trait4
dtype: float64
- name: rater2_trait5
dtype: float64
- name: rater2_trait6
dtype: float64
- name: rubrics
dtype: string
- name: prompt
dtype: string
- name: __index_level_0__
dtype: int64
splits:
- name: train
num_bytes: 2672885
num_examples: 723
download_size: 1352624
dataset_size: 2672885
configs:
- config_name: default
data_files:
- split: train
path: data/train-*
---
This dataset is primarily used for essay scoring and analysis, containing detailed information and scoring data of essays, suitable for developing and evaluating essay scoring models.
提供机构:
llm-aes
原始信息汇总
数据集概述
数据特征
- essay_id: 文章ID,数据类型为
int64 - essay_set: 文章集,数据类型为
int64 - essay: 文章内容,数据类型为
string - rater1_domain1: 评分者1的领域1评分,数据类型为
int64 - rater2_domain1: 评分者2的领域1评分,数据类型为
int64 - domain1_score: 领域1的最终评分,数据类型为
int64 - rater1_trait1 至 rater1_trait6: 评分者1的特征评分,数据类型为
float64 - rater2_trait1 至 rater2_trait6: 评分者2的特征评分,数据类型为
float64 - rubrics: 评分标准,数据类型为
string - prompt: 提示信息,数据类型为
string - index_level_0: 索引级别0,数据类型为
int64
数据分割
- train: 训练集,包含723个样本,占用2672885字节
数据集大小
- 下载大小: 1352624字节
- 数据集大小: 2672885字节
配置
- default: 默认配置,包含训练集数据文件路径为
data/train-*
搜集汇总
数据集介绍

构建方式
在自动作文评分(Automated Essay Scoring, AES)领域,高质量标注数据集的构建是模型性能提升的基石。llm-aes/asap-8-original数据集源自著名的ASAP(Automated Student Assessment Prize)竞赛,专门聚焦于第8个作文题目的原始评分数据。该数据集通过收集学生在特定提示(prompt)下撰写的议论文,并邀请两位专业评分员(rater1与rater2)对每篇作文进行多维度评估。除了传统的整体性领域1评分(domain1_score),还细化了六个写作特质(trait1至trait6)的评分,涵盖内容、组织、风格等层面,并保留了原始评分标准(rubrics)与作文提示,确保数据构建的严谨性与可复现性。
特点
该数据集的核心特点在于其多维评分体系与原始评分数据的完整性。与传统仅提供单一总分的语料不同,asap-8-original包含了两位评分员对同一篇作文的独立评分,以及经过协商后的最终领域1得分,为研究评分者间信度提供了宝贵资源。此外,六个写作特质的连续型评分(float64)使得模型能够学习更细粒度的写作能力评估,而非仅预测总分。数据集包含723个训练样本,规模适中但标注深度极高,适用于验证小样本情境下的AES模型泛化能力,或作为迁移学习的基准。
使用方法
使用该数据集时,研究者可直接通过HuggingFace Datasets库加载默认配置下的训练集,数据以parquet格式存储,包含作文文本(essay)、提示(prompt)及完整评分标签。典型的应用流程包括:提取essay字段作为模型输入,以domain1_score或任一特质的评分作为回归目标进行微调。由于数据集已提供标准化字段,开发者可便捷地构建序列分类或回归任务,并利用rater1_domain1与rater2_domain1计算评分者一致性指标。此外,rubrics字段可用于辅助模型理解评分标准,prompt字段则支持提示感知的作文评估研究。
背景与挑战
背景概述
在自然语言处理与教育评估的交叉领域中,自动化作文评分(Automated Essay Scoring, AES)一直是备受瞩目的研究方向。llm-aes/asap-8-original 数据集源自 Automated Student Assessment Prize(ASAP)竞赛,由多家教育研究机构于2012年左右联合创建,旨在为机器评分系统提供高质量的基准测试资源。该数据集聚焦于八年级学生的议论文写作,包含723篇经过双重人工评分的作文样本,每篇作文均依据六个写作特质(如观点清晰度、论据支持、语言组织等)进行细粒度标注。这些特质评分不仅反映了整体写作水平,更揭示了不同维度下的语言能力表现,为研究如何利用大语言模型(LLM)模拟人类评分者提供了关键数据支撑。该数据集的发布推动了AES系统从单一整体评分向多维度、可解释性评估的演进,对教育技术领域产生了深远影响。
当前挑战
llm-aes/asap-8-original 数据集所面临的挑战首先体现在领域核心问题上:如何让自动化评分系统准确捕捉人类评分者对于议论文写作质量的多维度判断,尤其是在特质评分(如逻辑连贯性、语法准确性)与整体分数之间的非线性关系建模上。此外,构建过程中的挑战也不容忽视:原始数据仅包含723个样本,规模较小且来自单一八年级学生群体,导致模型泛化能力受限;同时,双评分的差异(如 rater1_domain1 与 rater2_domain1 的不一致)揭示了人工评分的主观性,而数据集未提供评分者间信度指标,增加了模型训练中的噪声处理难度。最后,作文提示(prompt)与评分量规(rubrics)的多样性不足,使得基于此数据集训练的模型在面对不同写作任务时易出现适应性瓶颈。
常用场景
经典使用场景
在自然语言处理与教育评估的交叉领域中,llm-aes/asap-8-original数据集作为自动作文评分(Automated Essay Scoring, AES)的基准资源,被广泛用于训练和评估机器学习模型对议论文、说明文等不同类型作文的评分能力。该数据集包含来自八个作文题目的学生习作,每篇作文均附有两位评分员在六个写作特质上的细粒度评分以及最终的综合分数,为研究者提供了丰富的标注信息以探索多维度评分机制。
衍生相关工作
基于该数据集,衍生了一系列经典工作,如使用长短期记忆网络(LSTM)和Transformer架构进行端到端评分的研究,以及引入对抗训练和注意力机制以提升模型鲁棒性的方法。此外,有工作探索了多任务学习框架,同时预测综合分数与六个写作特质分数,进一步提高了评分解释性。这些工作不仅在学术会议上发表,还催生了如ASAP竞赛等基准评测,推动了AES领域的持续创新。
数据集最近研究
最新研究方向
在自然语言处理与教育评估的交叉领域,llm-aes/asap-8-original数据集正成为推动自动化作文评分(AES)技术革新的关键资源。该数据集不仅保留了原始ASAP竞赛中多维度评分特征(如内容、组织、语言等六项特质评分),更通过引入提示文本与评分标准,为基于大语言模型的细粒度评估提供了坚实的数据基础。当前前沿研究聚焦于利用该数据集训练能够理解复杂语义与逻辑结构的评分模型,探索将传统统计方法与现代深度学习架构(如Transformer)相融合的路径。特别是在ChatGPT等生成式AI引发教育界对原创性评估的广泛关注背景下,该数据集在检测机器生成文本与人类写作差异、构建对抗性鲁棒评分系统方面展现出重要价值。其多评分员标注机制也为研究评分者间信度、构建公平无偏的评估模型提供了独特视角,对推动在线教育中大规模、高信度作文评分的智能化转型具有深远意义。
以上内容由遇见数据集搜集并总结生成



