RUCAIBox/agieval

Name: RUCAIBox/agieval
Creator: RUCAIBox
Published: 2024-04-14 05:46:38
License: 暂无描述

Hugging Face2024-04-14 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/RUCAIBox/agieval

下载链接

链接失效反馈

官方服务：

资源简介：

--- license: mit configs: - config_name: aqua-rat data_files: - split: dev path: "dev/aqua-rat.jsonl" - split: test path: "test/aqua-rat.jsonl" - config_name: gaokao-biology data_files: - split: dev path: "dev/gaokao-biology.jsonl" - split: test path: "test/gaokao-biology.jsonl" - config_name: gaokao-chemistry data_files: - split: dev path: "dev/gaokao-chemistry.jsonl" - split: test path: "test/gaokao-chemistry.jsonl" - config_name: gaokao-chinese data_files: - split: dev path: "dev/gaokao-chinese.jsonl" - split: test path: "test/gaokao-chinese.jsonl" - config_name: gaokao-english data_files: - split: dev path: "dev/gaokao-english.jsonl" - split: test path: "test/gaokao-english.jsonl" - config_name: gaokao-geography data_files: - split: dev path: "dev/gaokao-geography.jsonl" - split: test path: "test/gaokao-geography.jsonl" - config_name: gaokao-history data_files: - split: dev path: "dev/gaokao-history.jsonl" - split: test path: "test/gaokao-history.jsonl" - config_name: gaokao-mathcloze data_files: - split: dev path: "dev/gaokao-mathcloze.jsonl" - split: test path: "test/gaokao-mathcloze.jsonl" - config_name: gaokao-mathqa data_files: - split: dev path: "dev/gaokao-mathqa.jsonl" - split: test path: "test/gaokao-mathqa.jsonl" - config_name: gaokao-physics data_files: - split: dev path: "dev/gaokao-physics.jsonl" - split: test path: "test/gaokao-physics.jsonl" - config_name: jec-qa-ca data_files: - split: dev path: "dev/jec-qa-ca.jsonl" - split: test path: "test/jec-qa-ca.jsonl" - config_name: jec-qa-kd data_files: - split: dev path: "dev/jec-qa-kd.jsonl" - split: test path: "test/jec-qa-kd.jsonl" - config_name: logiqa-en data_files: - split: dev path: "dev/logiqa-en.jsonl" - split: test path: "test/logiqa-en.jsonl" - config_name: logiqa-zh data_files: - split: dev path: "dev/logiqa-zh.jsonl" - split: test path: "test/logiqa-zh.jsonl" - config_name: lsat-ar data_files: - split: dev path: "dev/lsat-ar.jsonl" - split: test path: "test/lsat-ar.jsonl" - config_name: lsat-lr data_files: - split: dev path: "dev/lsat-lr.jsonl" - split: test path: "test/lsat-lr.jsonl" - config_name: lsat-rc data_files: - split: dev path: "dev/lsat-rc.jsonl" - split: test path: "test/lsat-rc.jsonl" - config_name: math data_files: - split: dev path: "dev/math.jsonl" - split: test path: "test/math.jsonl" - config_name: sat-en data_files: - split: dev path: "dev/sat-en.jsonl" - split: test path: "test/sat-en.jsonl" - config_name: sat-en-without-passage data_files: - split: dev path: "dev/sat-en-without-passage.jsonl" - split: test path: "test/sat-en-without-passage.jsonl" - config_name: sat-math data_files: - split: dev path: "dev/sat-math.jsonl" - split: test path: "test/sat-math.jsonl" ---

许可证：MIT许可证配置项： - 配置名称：aqua-rat 数据文件： - 数据划分：开发集（dev），文件路径："dev/aqua-rat.jsonl" - 数据划分：测试集（test），文件路径："test/aqua-rat.jsonl" - 配置名称：高考生物（gaokao-biology）数据文件： - 数据划分：开发集（dev），文件路径："dev/gaokao-biology.jsonl" - 数据划分：测试集（test），文件路径："test/gaokao-biology.jsonl" - 配置名称：高考化学（gaokao-chemistry）数据文件： - 数据划分：开发集（dev），文件路径："dev/gaokao-chemistry.jsonl" - 数据划分：测试集（test），文件路径："test/gaokao-chemistry.jsonl" - 配置名称：高考语文（gaokao-chinese）数据文件： - 数据划分：开发集（dev），文件路径："dev/gaokao-chinese.jsonl" - 数据划分：测试集（test），文件路径："test/gaokao-chinese.jsonl" - 配置名称：高考英语（gaokao-english）数据文件： - 数据划分：开发集（dev），文件路径："dev/gaokao-english.jsonl" - 数据划分：测试集（test），文件路径："test/gaokao-english.jsonl" - 配置名称：高考地理（gaokao-geography）数据文件： - 数据划分：开发集（dev），文件路径："dev/gaokao-geography.jsonl" - 数据划分：测试集（test），文件路径："test/gaokao-geography.jsonl" - 配置名称：高考历史（gaokao-history）数据文件： - 数据划分：开发集（dev），文件路径："dev/gaokao-history.jsonl" - 数据划分：测试集（test），文件路径："test/gaokao-history.jsonl" - 配置名称：高考数学完形填空（gaokao-mathcloze）数据文件： - 数据划分：开发集（dev），文件路径："dev/gaokao-mathcloze.jsonl" - 数据划分：测试集（test），文件路径："test/gaokao-mathcloze.jsonl" - 配置名称：高考数学问答（gaokao-mathqa）数据文件： - 数据划分：开发集（dev），文件路径："dev/gaokao-mathqa.jsonl" - 数据划分：测试集（test），文件路径："test/gaokao-mathqa.jsonl" - 配置名称：高考物理（gaokao-physics）数据文件： - 数据划分：开发集（dev），文件路径："dev/gaokao-physics.jsonl" - 数据划分：测试集（test），文件路径："test/gaokao-physics.jsonl" - 配置名称：jec-qa-ca 数据文件： - 数据划分：开发集（dev），文件路径："dev/jec-qa-ca.jsonl" - 数据划分：测试集（test），文件路径："test/jec-qa-ca.jsonl" - 配置名称：jec-qa-kd 数据文件： - 数据划分：开发集（dev），文件路径："dev/jec-qa-kd.jsonl" - 数据划分：测试集（test），文件路径："test/jec-qa-kd.jsonl" - 配置名称：逻辑问答-英语（logiqa-en）数据文件： - 数据划分：开发集（dev），文件路径："dev/logiqa-en.jsonl" - 数据划分：测试集（test），文件路径："test/logiqa-en.jsonl" - 配置名称：逻辑问答-中文（logiqa-zh）数据文件： - 数据划分：开发集（dev），文件路径："dev/logiqa-zh.jsonl" - 数据划分：测试集（test），文件路径："test/logiqa-zh.jsonl" - 配置名称：LSAT分析推理（lsat-ar）数据文件： - 数据划分：开发集（dev），文件路径："dev/lsat-ar.jsonl" - 数据划分：测试集（test），文件路径："test/lsat-ar.jsonl" - 配置名称：LSAT逻辑推理（lsat-lr）数据文件： - 数据划分：开发集（dev），文件路径："dev/lsat-lr.jsonl" - 数据划分：测试集（test），文件路径："test/lsat-lr.jsonl" - 配置名称：LSAT阅读理解（lsat-rc）数据文件： - 数据划分：开发集（dev），文件路径："dev/lsat-rc.jsonl" - 数据划分：测试集（test），文件路径："test/lsat-rc.jsonl" - 配置名称：数学问答（math）数据文件： - 数据划分：开发集（dev），文件路径："dev/math.jsonl" - 数据划分：测试集（test），文件路径："test/math.jsonl" - 配置名称：SAT英语（sat-en）数据文件： - 数据划分：开发集（dev），文件路径："dev/sat-en.jsonl" - 数据划分：测试集（test），文件路径："test/sat-en.jsonl" - 配置名称：无文章版SAT英语（sat-en-without-passage）数据文件： - 数据划分：开发集（dev），文件路径："dev/sat-en-without-passage.jsonl" - 数据划分：测试集（test），文件路径："test/sat-en-without-passage.jsonl" - 配置名称：SAT数学（sat-math）数据文件： - 数据划分：开发集（dev），文件路径："dev/sat-math.jsonl" - 数据划分：测试集（test），文件路径："test/sat-math.jsonl"

提供机构：

RUCAIBox

原始信息汇总

数据集概述

该数据集包含多个配置，每个配置对应不同学科或类型的数据文件，分为开发集（dev）和测试集（test）。以下是各配置及其对应的文件路径：

配置列表

aqua-rat
- 开发集: dev/aqua-rat.jsonl
- 测试集: test/aqua-rat.jsonl
gaokao-biology
- 开发集: dev/gaokao-biology.jsonl
- 测试集: test/gaokao-biology.jsonl
gaokao-chemistry
- 开发集: dev/gaokao-chemistry.jsonl
- 测试集: test/gaokao-chemistry.jsonl
gaokao-chinese
- 开发集: dev/gaokao-chinese.jsonl
- 测试集: test/gaokao-chinese.jsonl
gaokao-english
- 开发集: dev/gaokao-english.jsonl
- 测试集: test/gaokao-english.jsonl
gaokao-geography
- 开发集: dev/gaokao-geography.jsonl
- 测试集: test/gaokao-geography.jsonl
gaokao-history
- 开发集: dev/gaokao-history.jsonl
- 测试集: test/gaokao-history.jsonl
gaokao-mathcloze
- 开发集: dev/gaokao-mathcloze.jsonl
- 测试集: test/gaokao-mathcloze.jsonl
gaokao-mathqa
- 开发集: dev/gaokao-mathqa.jsonl
- 测试集: test/gaokao-mathqa.jsonl
gaokao-physics
- 开发集: dev/gaokao-physics.jsonl
- 测试集: test/gaokao-physics.jsonl
jec-qa-ca
- 开发集: dev/jec-qa-ca.jsonl
- 测试集: test/jec-qa-ca.jsonl
jec-qa-kd
- 开发集: dev/jec-qa-kd.jsonl
- 测试集: test/jec-qa-kd.jsonl
logiqa-en
- 开发集: dev/logiqa-en.jsonl
- 测试集: test/logiqa-en.jsonl
logiqa-zh
- 开发集: dev/logiqa-zh.jsonl
- 测试集: test/logiqa-zh.jsonl
lsat-ar
- 开发集: dev/lsat-ar.jsonl
- 测试集: test/lsat-ar.jsonl
lsat-lr
- 开发集: dev/lsat-lr.jsonl
- 测试集: test/lsat-lr.jsonl
lsat-rc
- 开发集: dev/lsat-rc.jsonl
- 测试集: test/lsat-rc.jsonl
math
- 开发集: dev/math.jsonl
- 测试集: test/math.jsonl
sat-en
- 开发集: dev/sat-en.jsonl
- 测试集: test/sat-en.jsonl
sat-en-without-passage
- 开发集: dev/sat-en-without-passage.jsonl
- 测试集: test/sat-en-without-passage.jsonl
sat-math
- 开发集: dev/sat-math.jsonl
- 测试集: test/sat-math.jsonl

搜集汇总

数据集介绍

构建方式

在人工智能评估领域，AGIEval数据集的构建体现了对多学科知识整合的深度考量。该数据集通过精心遴选来自中国高考、美国学术能力评估测试（SAT）、法学院入学考试（LSAT）以及数学推理等多个权威标准化考试的题目，确保了评估内容的广泛性和权威性。构建过程中，原始试题被系统性地转化为结构化数据，并以JSON Lines格式进行组织，每个子集均划分为开发集和测试集，为模型评估提供了标准化的基准框架。

特点

AGIEval数据集的核心特征在于其跨学科与跨文化的综合性设计。数据集涵盖了从生物学、化学、物理到语文、英语、历史、地理等多元学科，同时融入了逻辑推理与数学问题求解，形成了对人工智能模型综合认知能力的多维度考察。其试题来源兼具国际视野与中国本土特色，如高考题目与LSAT逻辑题的并存，使得评估能够兼顾不同教育体系下的知识表达与思维模式，为模型泛化性能的检验提供了丰富场景。

使用方法

使用AGIEval数据集进行模型评估时，研究者可依据具体的研究目标，灵活选择相应的子配置进行加载与分析。每个子集均以标准化的JSON Lines格式存储，便于通过数据加载工具直接读取。典型的应用流程包括：利用开发集进行模型调试与参数微调，随后在独立的测试集上执行严格的性能评估。该设计支持对模型在不同学科、语言及推理任务上的能力进行细粒度剖析，为衡量模型在复杂、开放域问题上的表现提供了可靠且便捷的基准平台。

背景与挑战

背景概述

在人工智能领域，评估大型语言模型的推理与知识能力已成为核心研究议题。RUCAIBox/agieval数据集由瑞莱智慧（RealAI）的研究团队于2023年构建，旨在系统性地评测模型在多样化、高难度学术与逻辑推理任务上的表现。该数据集汇聚了包括中国高考（Gaokao）、美国学术能力评估测试（SAT）、法学院入学考试（LSAT）以及数学与逻辑问答（如AQUA-RAT、LogiQA）等多个权威评估来源的题目，覆盖自然科学、人文社科及形式逻辑等多个学科。其创建不仅推动了模型能力评估向多维度、深层次发展，也为探究人工智能的通用认知水平设立了新的基准，对促进AGI（通用人工智能）研究具有深远影响。

当前挑战

该数据集致力于解决复杂问答与推理任务中的模型评估挑战，其核心难题在于如何准确衡量模型在跨学科、多语言环境下的深层推理与知识应用能力。构建过程中的挑战尤为显著：首先，数据集成需要协调来自不同国家教育体系与考试机构的多样化题目，这些题目在格式、难度及文化背景上存在显著差异，需进行细致的标准化与对齐处理；其次，确保题目的高质量与权威性涉及复杂的版权许可与学术审核流程；此外，设计能够公平评估模型而非简单模式匹配的评测框架，需克服题目泄露与数据污染风险，并建立鲁棒的评估指标以区分模型的真实推理能力与记忆效应。

常用场景

经典使用场景

在大型语言模型评估领域，AGIEval数据集以其多学科、多语言和多任务特性，成为衡量模型综合推理与知识应用能力的经典基准。该数据集广泛用于测试模型在数学、逻辑、科学及人文等领域的表现，尤其通过高考、SAT、LSAT等标准化考试题目，系统评估模型在复杂问题解决、批判性思维和跨领域知识迁移方面的性能。研究者借助其结构化评测框架，能够深入分析模型在不同认知层次任务上的优势与局限，为模型优化提供精准导向。

衍生相关工作

围绕AGIEval数据集，学术界衍生出一系列聚焦大语言模型能力评测的经典研究工作。例如，基于其多任务架构开发的层次化评估框架，深入揭示了模型在学科交叉问题上的知识融合机制；针对高考题目设计的细粒度分析工具，促进了模型解题路径的可解释性研究。这些工作不仅拓展了模型评估的维度，还催生了如动态难度适配、跨语言知识迁移等新兴研究方向，持续推动着智能系统评测方法论的前沿探索。

数据集最近研究