llm-aes/asappp-3-6-original

Name: llm-aes/asappp-3-6-original
Creator: llm-aes
Published: 2024-01-14 08:20:22
License: 暂无描述

Hugging Face2024-01-14 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/llm-aes/asappp-3-6-original

下载链接

链接失效反馈

官方服务：

资源简介：

--- dataset_info: features: - name: Essay_ID dtype: int64 - name: essay_set dtype: int64 - name: essay dtype: string - name: rater1_domain1 dtype: int64 - name: rater2_domain1 dtype: int64 - name: domain1_score dtype: int64 - name: rubrics dtype: string - name: prompt dtype: string - name: Content dtype: int64 - name: Prompt_Adherence dtype: int64 - name: Language dtype: int64 - name: Narrativity dtype: int64 splits: - name: train num_bytes: 60382165 num_examples: 7101 download_size: 2445084 dataset_size: 60382165 configs: - config_name: default data_files: - split: train path: data/train-* ---

数据集信息：特征列表： - 作文编号（Essay_ID）：数据类型为int64 - 作文题组（essay_set）：数据类型为int64 - 作文文本（essay）：数据类型为string - 评分员1领域1得分（rater1_domain1）：数据类型为int64 - 评分员2领域1得分（rater2_domain1）：数据类型为int64 - 领域1总分（domain1_score）：数据类型为int64 - 评分细则（rubrics）：数据类型为string - 作文提示（prompt）：数据类型为string - 内容维度得分（Content）：数据类型为int64 - 贴合提示程度得分（Prompt_Adherence）：数据类型为int64 - 语言维度得分（Language）：数据类型为int64 - 叙事性得分（Narrativity）：数据类型为int64 数据集划分： - 训练子集（train）：占用存储空间字节数为60382165，样本量为7101 下载大小：2445084字节数据集总大小：60382165字节配置项： - 默认配置（default）：数据文件： - 对应训练子集，文件路径为data/train-*

提供机构：

llm-aes

原始信息汇总

数据集概述

数据特征

Essay_ID: 数据类型为 int64
essay_set: 数据类型为 int64
essay: 数据类型为 string
rater1_domain1: 数据类型为 int64
rater2_domain1: 数据类型为 int64
domain1_score: 数据类型为 int64
rubrics: 数据类型为 string
prompt: 数据类型为 string
Content: 数据类型为 int64
Prompt_Adherence: 数据类型为 int64
Language: 数据类型为 int64
Narrativity: 数据类型为 int64

数据分割

train: 包含 7101 个样本，数据大小为 60382165 字节

数据集大小

下载大小: 2445084 字节
数据集大小: 60382165 字节

配置

default: 包含训练数据文件，路径为 data/train-*

搜集汇总

数据集介绍

构建方式

该数据集名为llm-aes/asappp-3-6-original，其构建过程涉及从多个维度对学生的论文进行评分，包括内容、遵守提示、语言和叙述性等方面。数据集包含的论文由评分者针对特定领域进行评分，并通过特征如Essay_ID、essay_set等对每篇论文进行唯一标识和分类。此外，数据集通过划分训练集等方式，确保数据可用于机器学习模型的训练与验证。

特点

数据集显著的特点在于其多元化的评分标准，涵盖了论文的内容质量、对提示的遵守程度、语言运用以及叙述性等多个维度。每篇论文均由至少两位评分者针对domain1进行评分，确保评分的公正性与准确性。此外，数据集的构建考虑到了数据的多样性和可用性，提供了训练集等不同的数据分割方式，以适应不同的研究需求。

使用方法

使用该数据集时，研究者可以根据特定的研究领域或评分标准，对数据进行筛选和分析。数据集以HuggingFace的格式提供，可通过对应的库直接加载。用户可以根据需要，利用训练集进行模型的训练，并对模型的性能进行评估。同时，数据集的结构允许研究者进行复杂的数据挖掘和特征工程任务，以提取更深层次的信息。

背景与挑战

背景概述

llm-aes/asappp-3-6-original数据集，作为自然语言处理领域的一个重要资源，其创建旨在促进作文评分系统的自动化进程。该数据集由多个研究人员和机构共同开发于21世纪初，主要解决的是自动作文评分问题，旨在通过机器学习技术对学生的作文进行客观评分。它包含了7101篇作文及其评分，覆盖了不同的评分维度，如内容、语言和叙事性等，对教育技术领域产生了深远的影响。

当前挑战

在数据集构建过程中，研究人员面临了多项挑战。首先，如何确保评分标准的一致性和公正性，这对于训练出一个可靠的自动评分模型至关重要。其次，作文的质量和多样性对于模型的泛化能力提出了考验。此外，构建过程中还需解决数据标注的准确性问题，以及如何平衡不同评分者之间的评分差异。在领域问题上，该数据集所面临的挑战包括如何准确捕捉作文的深层语义和结构，以及如何在保持评分准确性的同时，提高模型的效率和可解释性。

常用场景

经典使用场景

在自然语言处理与教育评估的交叉领域，llm-aes/asappp-3-6-original数据集被广泛用于文本评分与质量评估的研究。其经典使用场景在于构建自动评分系统，通过学习标注者的评分标准，如内容丰富性、语言准确性和叙述性等维度，对学生的作文进行量化评分。

衍生相关工作

基于此数据集，研究者们已经衍生出一系列相关工作，包括但不限于评分模型的改进、评分标准的优化，以及针对不同语言和文化背景的评分系统适应性研究。这些工作进一步推动了自动文本评分技术的发展和应用。

数据集最近研究