llm-aes/asappp-3-6-original
收藏Hugging Face2024-01-14 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/llm-aes/asappp-3-6-original
下载链接
链接失效反馈官方服务:
资源简介:
---
dataset_info:
features:
- name: Essay_ID
dtype: int64
- name: essay_set
dtype: int64
- name: essay
dtype: string
- name: rater1_domain1
dtype: int64
- name: rater2_domain1
dtype: int64
- name: domain1_score
dtype: int64
- name: rubrics
dtype: string
- name: prompt
dtype: string
- name: Content
dtype: int64
- name: Prompt_Adherence
dtype: int64
- name: Language
dtype: int64
- name: Narrativity
dtype: int64
splits:
- name: train
num_bytes: 60382165
num_examples: 7101
download_size: 2445084
dataset_size: 60382165
configs:
- config_name: default
data_files:
- split: train
path: data/train-*
---
数据集信息:
特征列表:
- 作文编号(Essay_ID):数据类型为int64
- 作文题组(essay_set):数据类型为int64
- 作文文本(essay):数据类型为string
- 评分员1领域1得分(rater1_domain1):数据类型为int64
- 评分员2领域1得分(rater2_domain1):数据类型为int64
- 领域1总分(domain1_score):数据类型为int64
- 评分细则(rubrics):数据类型为string
- 作文提示(prompt):数据类型为string
- 内容维度得分(Content):数据类型为int64
- 贴合提示程度得分(Prompt_Adherence):数据类型为int64
- 语言维度得分(Language):数据类型为int64
- 叙事性得分(Narrativity):数据类型为int64
数据集划分:
- 训练子集(train):占用存储空间字节数为60382165,样本量为7101
下载大小:2445084字节
数据集总大小:60382165字节
配置项:
- 默认配置(default):
数据文件:
- 对应训练子集,文件路径为data/train-*
提供机构:
llm-aes
原始信息汇总
数据集概述
数据特征
- Essay_ID: 数据类型为
int64 - essay_set: 数据类型为
int64 - essay: 数据类型为
string - rater1_domain1: 数据类型为
int64 - rater2_domain1: 数据类型为
int64 - domain1_score: 数据类型为
int64 - rubrics: 数据类型为
string - prompt: 数据类型为
string - Content: 数据类型为
int64 - Prompt_Adherence: 数据类型为
int64 - Language: 数据类型为
int64 - Narrativity: 数据类型为
int64
数据分割
- train: 包含 7101 个样本,数据大小为 60382165 字节
数据集大小
- 下载大小: 2445084 字节
- 数据集大小: 60382165 字节
配置
- default: 包含训练数据文件,路径为
data/train-*
搜集汇总
数据集介绍

构建方式
该数据集名为llm-aes/asappp-3-6-original,其构建过程涉及从多个维度对学生的论文进行评分,包括内容、遵守提示、语言和叙述性等方面。数据集包含的论文由评分者针对特定领域进行评分,并通过特征如Essay_ID、essay_set等对每篇论文进行唯一标识和分类。此外,数据集通过划分训练集等方式,确保数据可用于机器学习模型的训练与验证。
特点
数据集显著的特点在于其多元化的评分标准,涵盖了论文的内容质量、对提示的遵守程度、语言运用以及叙述性等多个维度。每篇论文均由至少两位评分者针对domain1进行评分,确保评分的公正性与准确性。此外,数据集的构建考虑到了数据的多样性和可用性,提供了训练集等不同的数据分割方式,以适应不同的研究需求。
使用方法
使用该数据集时,研究者可以根据特定的研究领域或评分标准,对数据进行筛选和分析。数据集以HuggingFace的格式提供,可通过对应的库直接加载。用户可以根据需要,利用训练集进行模型的训练,并对模型的性能进行评估。同时,数据集的结构允许研究者进行复杂的数据挖掘和特征工程任务,以提取更深层次的信息。
背景与挑战
背景概述
llm-aes/asappp-3-6-original数据集,作为自然语言处理领域的一个重要资源,其创建旨在促进作文评分系统的自动化进程。该数据集由多个研究人员和机构共同开发于21世纪初,主要解决的是自动作文评分问题,旨在通过机器学习技术对学生的作文进行客观评分。它包含了7101篇作文及其评分,覆盖了不同的评分维度,如内容、语言和叙事性等,对教育技术领域产生了深远的影响。
当前挑战
在数据集构建过程中,研究人员面临了多项挑战。首先,如何确保评分标准的一致性和公正性,这对于训练出一个可靠的自动评分模型至关重要。其次,作文的质量和多样性对于模型的泛化能力提出了考验。此外,构建过程中还需解决数据标注的准确性问题,以及如何平衡不同评分者之间的评分差异。在领域问题上,该数据集所面临的挑战包括如何准确捕捉作文的深层语义和结构,以及如何在保持评分准确性的同时,提高模型的效率和可解释性。
常用场景
经典使用场景
在自然语言处理与教育评估的交叉领域,llm-aes/asappp-3-6-original数据集被广泛用于文本评分与质量评估的研究。其经典使用场景在于构建自动评分系统,通过学习标注者的评分标准,如内容丰富性、语言准确性和叙述性等维度,对学生的作文进行量化评分。
衍生相关工作
基于此数据集,研究者们已经衍生出一系列相关工作,包括但不限于评分模型的改进、评分标准的优化,以及针对不同语言和文化背景的评分系统适应性研究。这些工作进一步推动了自动文本评分技术的发展和应用。
数据集最近研究
最新研究方向
在自然语言处理领域,尤其是文本评分与质量评估的研究前沿,llm-aes/asappp-3-6-original数据集正被广泛应用于探索评分标准的一致性与准确性。该数据集以其细致的评分维度,如内容、遵循提示的准确性、语言表达和叙事性等,为研究提供了丰富的素材。近期研究聚焦于通过深度学习模型自动化评分系统,旨在提高评分效率和一致性,同时降低人工评分的主观性。此外,该数据集在促进教育评估技术的发展、优化在线学习平台评分机制等方面具有重要影响,对教育技术领域的发展具有积极的推动作用。
以上内容由遇见数据集搜集并总结生成



