mohamedemam/Essay-quetions-auto-grading-arabic
收藏Hugging Face2024-06-27 更新2024-06-29 收录
下载链接:
https://hf-mirror.com/datasets/mohamedemam/Essay-quetions-auto-grading-arabic
下载链接
链接失效反馈官方服务:
资源简介:
Open Orca Enhanced Dataset是一个精心设计的用于提升自动作文评分模型性能的深度学习数据集。该数据集整合了来自FLAN集合的强数据实例,并通过GPT-3.5或GPT-4生成的响应进行了增强,形成了一个多样化和上下文丰富的资源,用于训练模型。数据集的结构是表格格式,包含关键字段如唯一标识符、系统提示、问题、响应和标签。数据集的收集和处理过程包括初始数据集选择、格式转换和RAG实施,以提高模型区分True和False答案的能力。数据集还包括了教学提示和上下文相关的过滤过程,以确保保留上下文丰富的提示。评估和性能方面,数据集在英语和阿拉伯语LLM中都取得了显著的准确性提升。最后,数据集还通过Google Translate创建了阿拉伯语版本,以支持多语言模型的训练。
Open Orca Enhanced Dataset是一个精心设计的用于提升自动作文评分模型性能的深度学习数据集。该数据集整合了来自FLAN集合的强数据实例,并通过GPT-3.5或GPT-4生成的响应进行了增强,形成了一个多样化和上下文丰富的资源,用于训练模型。数据集的结构是表格格式,包含关键字段如唯一标识符、系统提示、问题、响应和标签。数据集的收集和处理过程包括初始数据集选择、格式转换和RAG实施,以提高模型区分True和False答案的能力。数据集还包括了教学提示和上下文相关的过滤过程,以确保保留上下文丰富的提示。评估和性能方面,数据集在英语和阿拉伯语LLM中都取得了显著的准确性提升。最后,数据集还通过Google Translate创建了阿拉伯语版本,以支持多语言模型的训练。
提供机构:
mohamedemam
原始信息汇总
数据集概述
数据集信息
- 许可证: GPL
- 特征:
Unnamed: 0: 数据类型为int64system_prompt: 数据类型为stringquestion: 数据类型为stringresponse: 数据类型为stringchoice2: 数据类型为int64label: 数据类型为stringanswer: 数据类型为stringlang: 数据类型为stringstart: 数据类型为string
- 分割:
train: 包含 96647 个样本,大小为 382761987 字节
- 下载大小: 190042900 字节
- 数据集大小: 382761987 字节
- 配置:
default: 包含train分割的数据文件路径为data/train-*
- 任务类别:
- 文本分类
- 问答
- 文本生成
- 文本到文本生成
- 语言: 阿拉伯语
- 标签:
- autograding
- essay quetion
- 友好名称: autograding-ar
数据集结构
- id: 每个数据实例的唯一标识符
- system prompt: 提供给 GPT-3.5 或 GPT-4 API 的提示
- question: 来自 FLAN 集合的问题条目
- response: 从 GPT-3.5 或 GPT-4 接收到的响应
- label: 响应的分类,标记为 "True"(理想响应)或 "False"(生成的接近但不正确的替代方案)
数据收集和处理
- 初始数据集选择: 最初选择 QuAC 数据集,但由于其局限性,转而使用 Open Orca 数据集
- 格式转换: 将 QuAC 的上下文-问题-答案格式转换,将 "True" 答案作为基准,生成 "False" 答案
- RAG 实现: 使用检索增强生成(RAG)选择第三相似答案作为 "False" 响应,显著提高模型准确性至 88%
数据增强
- 指令提示: 包含训练 ChatGPT 类模型的指令提示,显著提高准确性
- 上下文相关性: 多阶段过滤过程确保保留上下文丰富的提示
- 标注: 最终数据集包含 "True" 或 "False" 的分类标签,并提供基准答案
评估和性能
- 准确性指标:
- 英语 LLM: 97% 准确性
- 阿拉伯语 LLM: 90% 准确性
- 模型比较: 包含基准答案的标签显著提高了模型准确性
- Flan T5: 从 20% 提高到 83%
- Bloomz: 从 40% 提高到 85%
多语言模型翻译
- 阿拉伯语数据集创建: 利用 Google Translate 将英语数据集翻译成阿拉伯语,确保创建多语言资源
搜集汇总
数据集介绍

背景与挑战
背景概述
该数据集是一个用于阿拉伯语作文自动评分的文本分类数据集,包含约96.6k条数据,格式为parquet,主要字段包括系统提示、问题、回答和标签。数据集通过整合FLAN集合的数据和GPT生成的响应,并采用检索增强生成技术来区分正确与错误回答,旨在提升深度学习模型的自动评分性能,同时支持多语言训练,其中阿拉伯语版本通过翻译英语数据集创建。
以上内容由遇见数据集搜集并总结生成



