five

llm-aes/asappp-3-6-original

收藏
Hugging Face2024-01-14 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/llm-aes/asappp-3-6-original
下载链接
链接失效反馈
官方服务:
资源简介:
--- dataset_info: features: - name: Essay_ID dtype: int64 - name: essay_set dtype: int64 - name: essay dtype: string - name: rater1_domain1 dtype: int64 - name: rater2_domain1 dtype: int64 - name: domain1_score dtype: int64 - name: rubrics dtype: string - name: prompt dtype: string - name: Content dtype: int64 - name: Prompt_Adherence dtype: int64 - name: Language dtype: int64 - name: Narrativity dtype: int64 splits: - name: train num_bytes: 60382165 num_examples: 7101 download_size: 2445084 dataset_size: 60382165 configs: - config_name: default data_files: - split: train path: data/train-* ---

数据集信息: 特征列表: - 作文编号(Essay_ID):数据类型为int64 - 作文题组(essay_set):数据类型为int64 - 作文文本(essay):数据类型为string - 评分员1领域1得分(rater1_domain1):数据类型为int64 - 评分员2领域1得分(rater2_domain1):数据类型为int64 - 领域1总分(domain1_score):数据类型为int64 - 评分细则(rubrics):数据类型为string - 作文提示(prompt):数据类型为string - 内容维度得分(Content):数据类型为int64 - 贴合提示程度得分(Prompt_Adherence):数据类型为int64 - 语言维度得分(Language):数据类型为int64 - 叙事性得分(Narrativity):数据类型为int64 数据集划分: - 训练子集(train):占用存储空间字节数为60382165,样本量为7101 下载大小:2445084字节 数据集总大小:60382165字节 配置项: - 默认配置(default): 数据文件: - 对应训练子集,文件路径为data/train-*
提供机构:
llm-aes
原始信息汇总

数据集概述

数据特征

  • Essay_ID: 数据类型为 int64
  • essay_set: 数据类型为 int64
  • essay: 数据类型为 string
  • rater1_domain1: 数据类型为 int64
  • rater2_domain1: 数据类型为 int64
  • domain1_score: 数据类型为 int64
  • rubrics: 数据类型为 string
  • prompt: 数据类型为 string
  • Content: 数据类型为 int64
  • Prompt_Adherence: 数据类型为 int64
  • Language: 数据类型为 int64
  • Narrativity: 数据类型为 int64

数据分割

  • train: 包含 7101 个样本,数据大小为 60382165 字节

数据集大小

  • 下载大小: 2445084 字节
  • 数据集大小: 60382165 字节

配置

  • default: 包含训练数据文件,路径为 data/train-*
搜集汇总
数据集介绍
main_image_url
构建方式
该数据集名为llm-aes/asappp-3-6-original,其构建过程涉及从多个维度对学生的论文进行评分,包括内容、遵守提示、语言和叙述性等方面。数据集包含的论文由评分者针对特定领域进行评分,并通过特征如Essay_ID、essay_set等对每篇论文进行唯一标识和分类。此外,数据集通过划分训练集等方式,确保数据可用于机器学习模型的训练与验证。
特点
数据集显著的特点在于其多元化的评分标准,涵盖了论文的内容质量、对提示的遵守程度、语言运用以及叙述性等多个维度。每篇论文均由至少两位评分者针对domain1进行评分,确保评分的公正性与准确性。此外,数据集的构建考虑到了数据的多样性和可用性,提供了训练集等不同的数据分割方式,以适应不同的研究需求。
使用方法
使用该数据集时,研究者可以根据特定的研究领域或评分标准,对数据进行筛选和分析。数据集以HuggingFace的格式提供,可通过对应的库直接加载。用户可以根据需要,利用训练集进行模型的训练,并对模型的性能进行评估。同时,数据集的结构允许研究者进行复杂的数据挖掘和特征工程任务,以提取更深层次的信息。
背景与挑战
背景概述
llm-aes/asappp-3-6-original数据集,作为自然语言处理领域的一个重要资源,其创建旨在促进作文评分系统的自动化进程。该数据集由多个研究人员和机构共同开发于21世纪初,主要解决的是自动作文评分问题,旨在通过机器学习技术对学生的作文进行客观评分。它包含了7101篇作文及其评分,覆盖了不同的评分维度,如内容、语言和叙事性等,对教育技术领域产生了深远的影响。
当前挑战
在数据集构建过程中,研究人员面临了多项挑战。首先,如何确保评分标准的一致性和公正性,这对于训练出一个可靠的自动评分模型至关重要。其次,作文的质量和多样性对于模型的泛化能力提出了考验。此外,构建过程中还需解决数据标注的准确性问题,以及如何平衡不同评分者之间的评分差异。在领域问题上,该数据集所面临的挑战包括如何准确捕捉作文的深层语义和结构,以及如何在保持评分准确性的同时,提高模型的效率和可解释性。
常用场景
经典使用场景
在自然语言处理与教育评估的交叉领域,llm-aes/asappp-3-6-original数据集被广泛用于文本评分与质量评估的研究。其经典使用场景在于构建自动评分系统,通过学习标注者的评分标准,如内容丰富性、语言准确性和叙述性等维度,对学生的作文进行量化评分。
衍生相关工作
基于此数据集,研究者们已经衍生出一系列相关工作,包括但不限于评分模型的改进、评分标准的优化,以及针对不同语言和文化背景的评分系统适应性研究。这些工作进一步推动了自动文本评分技术的发展和应用。
数据集最近研究
最新研究方向
在自然语言处理领域,尤其是文本评分与质量评估的研究前沿,llm-aes/asappp-3-6-original数据集正被广泛应用于探索评分标准的一致性与准确性。该数据集以其细致的评分维度,如内容、遵循提示的准确性、语言表达和叙事性等,为研究提供了丰富的素材。近期研究聚焦于通过深度学习模型自动化评分系统,旨在提高评分效率和一致性,同时降低人工评分的主观性。此外,该数据集在促进教育评估技术的发展、优化在线学习平台评分机制等方面具有重要影响,对教育技术领域的发展具有积极的推动作用。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作