RUCAIBox/agieval
收藏Hugging Face2024-04-14 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/RUCAIBox/agieval
下载链接
链接失效反馈官方服务:
资源简介:
---
license: mit
configs:
- config_name: aqua-rat
data_files:
- split: dev
path: "dev/aqua-rat.jsonl"
- split: test
path: "test/aqua-rat.jsonl"
- config_name: gaokao-biology
data_files:
- split: dev
path: "dev/gaokao-biology.jsonl"
- split: test
path: "test/gaokao-biology.jsonl"
- config_name: gaokao-chemistry
data_files:
- split: dev
path: "dev/gaokao-chemistry.jsonl"
- split: test
path: "test/gaokao-chemistry.jsonl"
- config_name: gaokao-chinese
data_files:
- split: dev
path: "dev/gaokao-chinese.jsonl"
- split: test
path: "test/gaokao-chinese.jsonl"
- config_name: gaokao-english
data_files:
- split: dev
path: "dev/gaokao-english.jsonl"
- split: test
path: "test/gaokao-english.jsonl"
- config_name: gaokao-geography
data_files:
- split: dev
path: "dev/gaokao-geography.jsonl"
- split: test
path: "test/gaokao-geography.jsonl"
- config_name: gaokao-history
data_files:
- split: dev
path: "dev/gaokao-history.jsonl"
- split: test
path: "test/gaokao-history.jsonl"
- config_name: gaokao-mathcloze
data_files:
- split: dev
path: "dev/gaokao-mathcloze.jsonl"
- split: test
path: "test/gaokao-mathcloze.jsonl"
- config_name: gaokao-mathqa
data_files:
- split: dev
path: "dev/gaokao-mathqa.jsonl"
- split: test
path: "test/gaokao-mathqa.jsonl"
- config_name: gaokao-physics
data_files:
- split: dev
path: "dev/gaokao-physics.jsonl"
- split: test
path: "test/gaokao-physics.jsonl"
- config_name: jec-qa-ca
data_files:
- split: dev
path: "dev/jec-qa-ca.jsonl"
- split: test
path: "test/jec-qa-ca.jsonl"
- config_name: jec-qa-kd
data_files:
- split: dev
path: "dev/jec-qa-kd.jsonl"
- split: test
path: "test/jec-qa-kd.jsonl"
- config_name: logiqa-en
data_files:
- split: dev
path: "dev/logiqa-en.jsonl"
- split: test
path: "test/logiqa-en.jsonl"
- config_name: logiqa-zh
data_files:
- split: dev
path: "dev/logiqa-zh.jsonl"
- split: test
path: "test/logiqa-zh.jsonl"
- config_name: lsat-ar
data_files:
- split: dev
path: "dev/lsat-ar.jsonl"
- split: test
path: "test/lsat-ar.jsonl"
- config_name: lsat-lr
data_files:
- split: dev
path: "dev/lsat-lr.jsonl"
- split: test
path: "test/lsat-lr.jsonl"
- config_name: lsat-rc
data_files:
- split: dev
path: "dev/lsat-rc.jsonl"
- split: test
path: "test/lsat-rc.jsonl"
- config_name: math
data_files:
- split: dev
path: "dev/math.jsonl"
- split: test
path: "test/math.jsonl"
- config_name: sat-en
data_files:
- split: dev
path: "dev/sat-en.jsonl"
- split: test
path: "test/sat-en.jsonl"
- config_name: sat-en-without-passage
data_files:
- split: dev
path: "dev/sat-en-without-passage.jsonl"
- split: test
path: "test/sat-en-without-passage.jsonl"
- config_name: sat-math
data_files:
- split: dev
path: "dev/sat-math.jsonl"
- split: test
path: "test/sat-math.jsonl"
---
许可证:MIT许可证
配置项:
- 配置名称:aqua-rat
数据文件:
- 数据划分:开发集(dev),文件路径:"dev/aqua-rat.jsonl"
- 数据划分:测试集(test),文件路径:"test/aqua-rat.jsonl"
- 配置名称:高考生物(gaokao-biology)
数据文件:
- 数据划分:开发集(dev),文件路径:"dev/gaokao-biology.jsonl"
- 数据划分:测试集(test),文件路径:"test/gaokao-biology.jsonl"
- 配置名称:高考化学(gaokao-chemistry)
数据文件:
- 数据划分:开发集(dev),文件路径:"dev/gaokao-chemistry.jsonl"
- 数据划分:测试集(test),文件路径:"test/gaokao-chemistry.jsonl"
- 配置名称:高考语文(gaokao-chinese)
数据文件:
- 数据划分:开发集(dev),文件路径:"dev/gaokao-chinese.jsonl"
- 数据划分:测试集(test),文件路径:"test/gaokao-chinese.jsonl"
- 配置名称:高考英语(gaokao-english)
数据文件:
- 数据划分:开发集(dev),文件路径:"dev/gaokao-english.jsonl"
- 数据划分:测试集(test),文件路径:"test/gaokao-english.jsonl"
- 配置名称:高考地理(gaokao-geography)
数据文件:
- 数据划分:开发集(dev),文件路径:"dev/gaokao-geography.jsonl"
- 数据划分:测试集(test),文件路径:"test/gaokao-geography.jsonl"
- 配置名称:高考历史(gaokao-history)
数据文件:
- 数据划分:开发集(dev),文件路径:"dev/gaokao-history.jsonl"
- 数据划分:测试集(test),文件路径:"test/gaokao-history.jsonl"
- 配置名称:高考数学完形填空(gaokao-mathcloze)
数据文件:
- 数据划分:开发集(dev),文件路径:"dev/gaokao-mathcloze.jsonl"
- 数据划分:测试集(test),文件路径:"test/gaokao-mathcloze.jsonl"
- 配置名称:高考数学问答(gaokao-mathqa)
数据文件:
- 数据划分:开发集(dev),文件路径:"dev/gaokao-mathqa.jsonl"
- 数据划分:测试集(test),文件路径:"test/gaokao-mathqa.jsonl"
- 配置名称:高考物理(gaokao-physics)
数据文件:
- 数据划分:开发集(dev),文件路径:"dev/gaokao-physics.jsonl"
- 数据划分:测试集(test),文件路径:"test/gaokao-physics.jsonl"
- 配置名称:jec-qa-ca
数据文件:
- 数据划分:开发集(dev),文件路径:"dev/jec-qa-ca.jsonl"
- 数据划分:测试集(test),文件路径:"test/jec-qa-ca.jsonl"
- 配置名称:jec-qa-kd
数据文件:
- 数据划分:开发集(dev),文件路径:"dev/jec-qa-kd.jsonl"
- 数据划分:测试集(test),文件路径:"test/jec-qa-kd.jsonl"
- 配置名称:逻辑问答-英语(logiqa-en)
数据文件:
- 数据划分:开发集(dev),文件路径:"dev/logiqa-en.jsonl"
- 数据划分:测试集(test),文件路径:"test/logiqa-en.jsonl"
- 配置名称:逻辑问答-中文(logiqa-zh)
数据文件:
- 数据划分:开发集(dev),文件路径:"dev/logiqa-zh.jsonl"
- 数据划分:测试集(test),文件路径:"test/logiqa-zh.jsonl"
- 配置名称:LSAT分析推理(lsat-ar)
数据文件:
- 数据划分:开发集(dev),文件路径:"dev/lsat-ar.jsonl"
- 数据划分:测试集(test),文件路径:"test/lsat-ar.jsonl"
- 配置名称:LSAT逻辑推理(lsat-lr)
数据文件:
- 数据划分:开发集(dev),文件路径:"dev/lsat-lr.jsonl"
- 数据划分:测试集(test),文件路径:"test/lsat-lr.jsonl"
- 配置名称:LSAT阅读理解(lsat-rc)
数据文件:
- 数据划分:开发集(dev),文件路径:"dev/lsat-rc.jsonl"
- 数据划分:测试集(test),文件路径:"test/lsat-rc.jsonl"
- 配置名称:数学问答(math)
数据文件:
- 数据划分:开发集(dev),文件路径:"dev/math.jsonl"
- 数据划分:测试集(test),文件路径:"test/math.jsonl"
- 配置名称:SAT英语(sat-en)
数据文件:
- 数据划分:开发集(dev),文件路径:"dev/sat-en.jsonl"
- 数据划分:测试集(test),文件路径:"test/sat-en.jsonl"
- 配置名称:无文章版SAT英语(sat-en-without-passage)
数据文件:
- 数据划分:开发集(dev),文件路径:"dev/sat-en-without-passage.jsonl"
- 数据划分:测试集(test),文件路径:"test/sat-en-without-passage.jsonl"
- 配置名称:SAT数学(sat-math)
数据文件:
- 数据划分:开发集(dev),文件路径:"dev/sat-math.jsonl"
- 数据划分:测试集(test),文件路径:"test/sat-math.jsonl"
提供机构:
RUCAIBox
原始信息汇总
数据集概述
该数据集包含多个配置,每个配置对应不同学科或类型的数据文件,分为开发集(dev)和测试集(test)。以下是各配置及其对应的文件路径:
配置列表
-
aqua-rat
- 开发集:
dev/aqua-rat.jsonl - 测试集:
test/aqua-rat.jsonl
- 开发集:
-
gaokao-biology
- 开发集:
dev/gaokao-biology.jsonl - 测试集:
test/gaokao-biology.jsonl
- 开发集:
-
gaokao-chemistry
- 开发集:
dev/gaokao-chemistry.jsonl - 测试集:
test/gaokao-chemistry.jsonl
- 开发集:
-
gaokao-chinese
- 开发集:
dev/gaokao-chinese.jsonl - 测试集:
test/gaokao-chinese.jsonl
- 开发集:
-
gaokao-english
- 开发集:
dev/gaokao-english.jsonl - 测试集:
test/gaokao-english.jsonl
- 开发集:
-
gaokao-geography
- 开发集:
dev/gaokao-geography.jsonl - 测试集:
test/gaokao-geography.jsonl
- 开发集:
-
gaokao-history
- 开发集:
dev/gaokao-history.jsonl - 测试集:
test/gaokao-history.jsonl
- 开发集:
-
gaokao-mathcloze
- 开发集:
dev/gaokao-mathcloze.jsonl - 测试集:
test/gaokao-mathcloze.jsonl
- 开发集:
-
gaokao-mathqa
- 开发集:
dev/gaokao-mathqa.jsonl - 测试集:
test/gaokao-mathqa.jsonl
- 开发集:
-
gaokao-physics
- 开发集:
dev/gaokao-physics.jsonl - 测试集:
test/gaokao-physics.jsonl
- 开发集:
-
jec-qa-ca
- 开发集:
dev/jec-qa-ca.jsonl - 测试集:
test/jec-qa-ca.jsonl
- 开发集:
-
jec-qa-kd
- 开发集:
dev/jec-qa-kd.jsonl - 测试集:
test/jec-qa-kd.jsonl
- 开发集:
-
logiqa-en
- 开发集:
dev/logiqa-en.jsonl - 测试集:
test/logiqa-en.jsonl
- 开发集:
-
logiqa-zh
- 开发集:
dev/logiqa-zh.jsonl - 测试集:
test/logiqa-zh.jsonl
- 开发集:
-
lsat-ar
- 开发集:
dev/lsat-ar.jsonl - 测试集:
test/lsat-ar.jsonl
- 开发集:
-
lsat-lr
- 开发集:
dev/lsat-lr.jsonl - 测试集:
test/lsat-lr.jsonl
- 开发集:
-
lsat-rc
- 开发集:
dev/lsat-rc.jsonl - 测试集:
test/lsat-rc.jsonl
- 开发集:
-
math
- 开发集:
dev/math.jsonl - 测试集:
test/math.jsonl
- 开发集:
-
sat-en
- 开发集:
dev/sat-en.jsonl - 测试集:
test/sat-en.jsonl
- 开发集:
-
sat-en-without-passage
- 开发集:
dev/sat-en-without-passage.jsonl - 测试集:
test/sat-en-without-passage.jsonl
- 开发集:
-
sat-math
- 开发集:
dev/sat-math.jsonl - 测试集:
test/sat-math.jsonl
- 开发集:
搜集汇总
数据集介绍

构建方式
在人工智能评估领域,AGIEval数据集的构建体现了对多学科知识整合的深度考量。该数据集通过精心遴选来自中国高考、美国学术能力评估测试(SAT)、法学院入学考试(LSAT)以及数学推理等多个权威标准化考试的题目,确保了评估内容的广泛性和权威性。构建过程中,原始试题被系统性地转化为结构化数据,并以JSON Lines格式进行组织,每个子集均划分为开发集和测试集,为模型评估提供了标准化的基准框架。
特点
AGIEval数据集的核心特征在于其跨学科与跨文化的综合性设计。数据集涵盖了从生物学、化学、物理到语文、英语、历史、地理等多元学科,同时融入了逻辑推理与数学问题求解,形成了对人工智能模型综合认知能力的多维度考察。其试题来源兼具国际视野与中国本土特色,如高考题目与LSAT逻辑题的并存,使得评估能够兼顾不同教育体系下的知识表达与思维模式,为模型泛化性能的检验提供了丰富场景。
使用方法
使用AGIEval数据集进行模型评估时,研究者可依据具体的研究目标,灵活选择相应的子配置进行加载与分析。每个子集均以标准化的JSON Lines格式存储,便于通过数据加载工具直接读取。典型的应用流程包括:利用开发集进行模型调试与参数微调,随后在独立的测试集上执行严格的性能评估。该设计支持对模型在不同学科、语言及推理任务上的能力进行细粒度剖析,为衡量模型在复杂、开放域问题上的表现提供了可靠且便捷的基准平台。
背景与挑战
背景概述
在人工智能领域,评估大型语言模型的推理与知识能力已成为核心研究议题。RUCAIBox/agieval数据集由瑞莱智慧(RealAI)的研究团队于2023年构建,旨在系统性地评测模型在多样化、高难度学术与逻辑推理任务上的表现。该数据集汇聚了包括中国高考(Gaokao)、美国学术能力评估测试(SAT)、法学院入学考试(LSAT)以及数学与逻辑问答(如AQUA-RAT、LogiQA)等多个权威评估来源的题目,覆盖自然科学、人文社科及形式逻辑等多个学科。其创建不仅推动了模型能力评估向多维度、深层次发展,也为探究人工智能的通用认知水平设立了新的基准,对促进AGI(通用人工智能)研究具有深远影响。
当前挑战
该数据集致力于解决复杂问答与推理任务中的模型评估挑战,其核心难题在于如何准确衡量模型在跨学科、多语言环境下的深层推理与知识应用能力。构建过程中的挑战尤为显著:首先,数据集成需要协调来自不同国家教育体系与考试机构的多样化题目,这些题目在格式、难度及文化背景上存在显著差异,需进行细致的标准化与对齐处理;其次,确保题目的高质量与权威性涉及复杂的版权许可与学术审核流程;此外,设计能够公平评估模型而非简单模式匹配的评测框架,需克服题目泄露与数据污染风险,并建立鲁棒的评估指标以区分模型的真实推理能力与记忆效应。
常用场景
经典使用场景
在大型语言模型评估领域,AGIEval数据集以其多学科、多语言和多任务特性,成为衡量模型综合推理与知识应用能力的经典基准。该数据集广泛用于测试模型在数学、逻辑、科学及人文等领域的表现,尤其通过高考、SAT、LSAT等标准化考试题目,系统评估模型在复杂问题解决、批判性思维和跨领域知识迁移方面的性能。研究者借助其结构化评测框架,能够深入分析模型在不同认知层次任务上的优势与局限,为模型优化提供精准导向。
衍生相关工作
围绕AGIEval数据集,学术界衍生出一系列聚焦大语言模型能力评测的经典研究工作。例如,基于其多任务架构开发的层次化评估框架,深入揭示了模型在学科交叉问题上的知识融合机制;针对高考题目设计的细粒度分析工具,促进了模型解题路径的可解释性研究。这些工作不仅拓展了模型评估的维度,还催生了如动态难度适配、跨语言知识迁移等新兴研究方向,持续推动着智能系统评测方法论的前沿探索。
数据集最近研究
最新研究方向
在人工智能评估领域,AGIEval数据集以其涵盖多学科、多语言及标准化考试题目的特点,成为衡量大语言模型综合推理能力的重要基准。当前研究聚焦于利用该数据集探索模型在复杂逻辑推理、跨学科知识融合以及情境化理解方面的性能边界,尤其关注模型在高考、LSAT等高标准考试题目上的表现,以揭示其与人类认知水平的差距。相关热点事件如ChatGPT等大模型的涌现,推动了学术界对模型通用智能评估的深入探讨,该数据集的研究不仅为模型优化提供了方向,也为人工智能在教育、法律等专业领域的应用奠定了评估基础,具有显著的学术与实践意义。
以上内容由遇见数据集搜集并总结生成



