hails/agieval-gaokao-mathcloze

Name: hails/agieval-gaokao-mathcloze
Creator: hails
Published: 2024-01-26 18:28:10
License: 暂无描述

Hugging Face2024-01-26 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/hails/agieval-gaokao-mathcloze

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含中国高考数学填空题的评估内容，用于评估基础模型。数据集包含查询（query）和答案（answer）两个特征，主要语言为中文，数据集被分割为测试集（test split），共有118个示例。

提供机构：

hails

原始信息汇总

数据集卡片 "agieval-gaokao-mathcloze"

数据集信息

特征

名称: query
- 数据类型: string
名称: answer
- 数据类型: string

分割

名称: test
- 字节数: 24078
- 样本数: 118

大小

下载大小: 14715
数据集大小: 24078

配置

配置名称: default
- 数据文件:
  - 分割: test
  - 路径: data/test-*

语言

语言: zh

引用

@misc{zhong2023agieval, title={AGIEval: A Human-Centric Benchmark for Evaluating Foundation Models}, author={Wanjun Zhong and Ruixiang Cui and Yiduo Guo and Yaobo Liang and Shuai Lu and Yanlin Wang and Amin Saied and Weizhu Chen and Nan Duan}, year={2023}, eprint={2304.06364}, archivePrefix={arXiv}, primaryClass={cs.CL} }

搜集汇总

数据集介绍

构建方式

该数据集hails/agieval-gaokao-mathcloze的构建，是基于AGIEval评测基准中的Gaokao-mathcloze子任务。它来源于https://github.com/microsoft/AGIEval，并按照该仓库中的处理方式进行整合。数据集主要包含高考数学填空题的相关内容，每一项数据由一个问题（query）和一个答案（answer）组成，构建过程中严格遵循了题库的原始结构和格式，确保了数据的真实性和有效性。

使用方法

在使用hails/agieval-gaokao-mathcloze数据集时，用户可以便捷地通过HuggingFace提供的接口进行下载和加载。数据集以test分割为主，包含了118个样本，用户可以直接利用这些样本进行模型训练、测试和评估。此外，数据集的配置信息清晰明了，便于用户根据需要选择合适的数据文件进行操作，提升了数据集的可用性和灵活性。

背景与挑战

背景概述

在人工智能评估领域，基准测试数据集的构建至关重要。AGIEval数据集，创建于2023年，是由微软亚洲研究院等机构的研究人员Wanjun Zhong, Ruixiang Cui等共同开发的。该数据集旨在为评估基础模型的性能提供以人类为中心的基准，其中的Gaokao-mathcloze子任务，专注于高考数学填空题的自动评估，对于推动自然语言处理技术在教育评估领域的应用具有重要意义。

当前挑战

AGIEval数据集在构建过程中面临的挑战主要包括：一是如何准确模拟高考数学填空题的复杂性和多样性，以确保评估结果的可靠性；二是构建一个既能反映学生解题过程，又能有效评估模型性能的评测框架。此外，数据集在领域问题解决上面临的挑战是如何精确地捕捉和评估模型在数学推理和语言理解方面的综合能力。

常用场景

经典使用场景

在自然语言处理领域，尤其是基础模型评估的研究中，hails/agieval-gaokao-mathcloze数据集被广泛应用于检验模型对于高级数学问题的理解和解答能力。该数据集通过提供高考数学填空题的查询和答案，为研究者提供了一个评估模型数学逻辑推理和问题解决能力的平台。

解决学术问题

该数据集解决了如何客观评估基础模型在复杂数学问题上的表现这一学术研究问题。通过使用标准化的高考题目，它为研究人员提供了一种可靠的方法来衡量模型在理解数学概念、逻辑推理以及应用知识解决实际问题上的能力，这对于提升人工智能在教育领域的应用具有重要意义。

实际应用

在实际应用中，hails/agieval-gaokao-mathcloze数据集的应用场景广泛，例如在智能教育系统中，可用于训练和评估智能辅导系统，以辅助学生进行数学学习，提高解题效率；同时，它也可以用于评估和改进在线考试系统中的自动评分机制。

数据集最近研究