Atomi/semeval_2013_task_7_beetle_5way
收藏Hugging Face2024-05-13 更新2024-06-12 收录
下载链接:
https://hf-mirror.com/datasets/Atomi/semeval_2013_task_7_beetle_5way
下载链接
链接失效反馈官方服务:
资源简介:
该数据集是SemEval 2013 Task 7数据集的BEETLE子集,包含约12,000个问题、参考答案和学生答案的三元组,由领域专家进行评分。数据集主要用于自动短答案评分(ASAG)的评估和基准测试。数据集包含56个独特的问题,涉及电学和电路领域,每个问题最多有8个不同质量的参考答案,以及约4,795个独特的学生答案。数据集分为训练集和测试集,训练集包含10,670行数据,测试集包含1,489行数据。数据集的标签采用5分类方式,包括正确、部分正确但不完整、矛盾、不相关和非领域。
该数据集是SemEval 2013 Task 7数据集的BEETLE子集,包含约12,000个问题、参考答案和学生答案的三元组,由领域专家进行评分。数据集主要用于自动短答案评分(ASAG)的评估和基准测试。数据集包含56个独特的问题,涉及电学和电路领域,每个问题最多有8个不同质量的参考答案,以及约4,795个独特的学生答案。数据集分为训练集和测试集,训练集包含10,670行数据,测试集包含1,489行数据。数据集的标签采用5分类方式,包括正确、部分正确但不完整、矛盾、不相关和非领域。
提供机构:
Atomi
原始信息汇总
数据集概述
数据集名称
- 名称: SemEval 2013 task 7 - Beetle - 5-way
- 别名: BEETLE
数据集内容
- 类型: 文本分类、文本生成
- 领域: 教育
- 描述: 包含约12,000个问题、参考答案和学生答案三元组,由领域专家评分。当前版本包含56个独特问题,每个问题最多8个参考答案(质量各异),约4,795个独特的学生答案,以及遵循5-way分类的评分标签。
数据集特征
- 问题ID: 字符串
- 问题: 字符串
- 问题类型: 字符串
- 问题模块: 字符串
- 问题子类型: 字符串
- 参考答案: 字符串
- 参考答案质量: 字符串
- 学生答案: 字符串
- 5-way分类标签: 字符串
- 测试集: 字符串
数据集结构
- 训练集: 10,670个样本
- 测试集: 1,489个样本,包含:
unseen-answers: 560个样本unseen-questions: 929个样本
数据集用途
- 直接用途: 用于评估和基准测试自动短答案评分(ASAG)的机器学习模型。
- 限制用途: 仅限于研究目的,不适用于实际/商业用途。
数据集来源
- 原始数据: 来自Kaggle的SemEval 2013 Task 7数据集,经过预处理合并所有分区。
- 5-way标签来源: 来自GitHub仓库。
数据集标签体系
- 5-way分类标签:
- 正确
- 部分正确不完整
- 矛盾
- 无关
- 非领域相关
数据集大小
- 下载大小: 202526字节
- 数据集大小: 3863173字节
- 训练集大小: 3367208字节
- 测试集大小: 495965字节
许可证
- 许可证类型: CC
语言
- 语言: 英语
任务类别
- 文本分类
- 文本生成
标签
- 自动短答案评分
- 自然语言理解
- 自然语言推理
- 识别文本蕴含
- 教育
大小类别
- 大小范围: 10K<n<100K
搜集汇总
数据集介绍

构建方式
Atomi/semeval_2013_task_7_beetle_5way数据集的构建基于SemEval 2013 Task 7的BEETLE子集,该数据集通过整合Kaggle上的原始数据以及GitHub上的5-way标签,经过过滤和预处理,形成了包含约12,000个问题、参考答案和学生答案的三元组,由领域专家进行评分,涵盖了电力和电路领域的56个独特问题,每个问题有8个不同质量的参考答案,以及约4,795个由1-2句话组成的学生答案。
特点
本数据集的特点在于其细致的5-way分类标签,包括正确、部分正确但不完整、矛盾、不相关和非领域等分类,适用于自动化简短答案评分(ASAG)模型的评估和基准测试。数据集专注于教育领域的特定子集,含有训练和测试两个部分,共计11,759条记录,特别适合于针对教育评估的研究。
使用方法
用户可通过HuggingFace的接口来加载和利用该数据集,数据集分为训练集和测试集,其中测试集进一步分为未见过的答案和未见过的题目子集。该数据集仅适用于研究目的,不适合构建面向实际应用或商业用途的ASAG系统,因为其领域专一性强,可能导致模型泛化能力不足。
背景与挑战
背景概述
Atomi/semeval_2013_task_7_beetle_5way数据集,源自于2013年SemEval任务的第七个子任务,由Atomi团队基于BEETLE子集进行整理和扩展。该数据集的创建旨在评估和校准自动化简短答案评分(ASAG)的机器学习模型,包含了大约12,000个由领域专家评分的问题、参考答案和学生答案的三元组。这些数据主要围绕电力和电路领域的56个独特问题,每个问题有高达8个不同质量的参考答案,以及大约4,795个由1-2句话组成的学生答案,并根据5路分类法进行标签标注。该数据集在ASAG研究领域具有较高的影响力,为相关研究提供了重要的基准数据。
当前挑战
该数据集面临的挑战主要在于其应用的领域特异性,尽管在自动化简短答案评分领域具有重要作用,但由于其覆盖的教育领域非常狭窄,因此在现实世界或商业用途的泛化能力较弱。此外,数据集构建过程中涉及到的数据预处理、标注质量控制和多标签分类问题也是研究和应用中需要克服的重要挑战。
常用场景
经典使用场景
在文本分类与自然语言理解领域,Atomi/semeval_2013_task_7_beetle_5way数据集被广泛用于自动简短答案评分(ASAG)的研究与模型评估。该数据集包含了由领域专家评分的问题、参考答案与学生答案的三元组,共约12,000个实例,涵盖了电力和电路领域的56个独特问题,为研究人员提供了一个标准的实验平台。
衍生相关工作
基于Atomi/semeval_2013_task_7_beetle_5way数据集的研究成果,衍生出了众多相关工作,包括但不限于短答案评分模型的改进、学生答案质量评估方法的研究以及教育数据挖掘领域的创新应用,为教育技术领域的发展贡献了丰富的理论与实践成果。
数据集最近研究
最新研究方向
在自动化简短答案评分(ASAG)领域,Atomi版本的SemEval 2013任务7数据集,特别是BEETLE子集,正被广泛用于评估和校准机器学习模型。近期研究集中于深度学习技术在处理教育领域文本分类任务中的应用,尤其是在细粒度分类上,如本数据集所采用的5-way分类标签。学者们正探索如何通过此数据集提升模型在理解学生答案与参考答案之间复杂关系的能力,以期在自动评分系统中实现更精准的反馈。此外,该数据集还引起了关于模型泛化能力及在教育领域中应用敏感性的讨论,对教育技术领域的发展具有重要影响。
以上内容由遇见数据集搜集并总结生成



