five

RUCAIBox/agieval

收藏
Hugging Face2024-04-14 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/RUCAIBox/agieval
下载链接
链接失效反馈
官方服务:
资源简介:
--- license: mit configs: - config_name: aqua-rat data_files: - split: dev path: "dev/aqua-rat.jsonl" - split: test path: "test/aqua-rat.jsonl" - config_name: gaokao-biology data_files: - split: dev path: "dev/gaokao-biology.jsonl" - split: test path: "test/gaokao-biology.jsonl" - config_name: gaokao-chemistry data_files: - split: dev path: "dev/gaokao-chemistry.jsonl" - split: test path: "test/gaokao-chemistry.jsonl" - config_name: gaokao-chinese data_files: - split: dev path: "dev/gaokao-chinese.jsonl" - split: test path: "test/gaokao-chinese.jsonl" - config_name: gaokao-english data_files: - split: dev path: "dev/gaokao-english.jsonl" - split: test path: "test/gaokao-english.jsonl" - config_name: gaokao-geography data_files: - split: dev path: "dev/gaokao-geography.jsonl" - split: test path: "test/gaokao-geography.jsonl" - config_name: gaokao-history data_files: - split: dev path: "dev/gaokao-history.jsonl" - split: test path: "test/gaokao-history.jsonl" - config_name: gaokao-mathcloze data_files: - split: dev path: "dev/gaokao-mathcloze.jsonl" - split: test path: "test/gaokao-mathcloze.jsonl" - config_name: gaokao-mathqa data_files: - split: dev path: "dev/gaokao-mathqa.jsonl" - split: test path: "test/gaokao-mathqa.jsonl" - config_name: gaokao-physics data_files: - split: dev path: "dev/gaokao-physics.jsonl" - split: test path: "test/gaokao-physics.jsonl" - config_name: jec-qa-ca data_files: - split: dev path: "dev/jec-qa-ca.jsonl" - split: test path: "test/jec-qa-ca.jsonl" - config_name: jec-qa-kd data_files: - split: dev path: "dev/jec-qa-kd.jsonl" - split: test path: "test/jec-qa-kd.jsonl" - config_name: logiqa-en data_files: - split: dev path: "dev/logiqa-en.jsonl" - split: test path: "test/logiqa-en.jsonl" - config_name: logiqa-zh data_files: - split: dev path: "dev/logiqa-zh.jsonl" - split: test path: "test/logiqa-zh.jsonl" - config_name: lsat-ar data_files: - split: dev path: "dev/lsat-ar.jsonl" - split: test path: "test/lsat-ar.jsonl" - config_name: lsat-lr data_files: - split: dev path: "dev/lsat-lr.jsonl" - split: test path: "test/lsat-lr.jsonl" - config_name: lsat-rc data_files: - split: dev path: "dev/lsat-rc.jsonl" - split: test path: "test/lsat-rc.jsonl" - config_name: math data_files: - split: dev path: "dev/math.jsonl" - split: test path: "test/math.jsonl" - config_name: sat-en data_files: - split: dev path: "dev/sat-en.jsonl" - split: test path: "test/sat-en.jsonl" - config_name: sat-en-without-passage data_files: - split: dev path: "dev/sat-en-without-passage.jsonl" - split: test path: "test/sat-en-without-passage.jsonl" - config_name: sat-math data_files: - split: dev path: "dev/sat-math.jsonl" - split: test path: "test/sat-math.jsonl" ---

许可证:MIT许可证 配置项: - 配置名称:aqua-rat 数据文件: - 数据划分:开发集(dev),文件路径:"dev/aqua-rat.jsonl" - 数据划分:测试集(test),文件路径:"test/aqua-rat.jsonl" - 配置名称:高考生物(gaokao-biology) 数据文件: - 数据划分:开发集(dev),文件路径:"dev/gaokao-biology.jsonl" - 数据划分:测试集(test),文件路径:"test/gaokao-biology.jsonl" - 配置名称:高考化学(gaokao-chemistry) 数据文件: - 数据划分:开发集(dev),文件路径:"dev/gaokao-chemistry.jsonl" - 数据划分:测试集(test),文件路径:"test/gaokao-chemistry.jsonl" - 配置名称:高考语文(gaokao-chinese) 数据文件: - 数据划分:开发集(dev),文件路径:"dev/gaokao-chinese.jsonl" - 数据划分:测试集(test),文件路径:"test/gaokao-chinese.jsonl" - 配置名称:高考英语(gaokao-english) 数据文件: - 数据划分:开发集(dev),文件路径:"dev/gaokao-english.jsonl" - 数据划分:测试集(test),文件路径:"test/gaokao-english.jsonl" - 配置名称:高考地理(gaokao-geography) 数据文件: - 数据划分:开发集(dev),文件路径:"dev/gaokao-geography.jsonl" - 数据划分:测试集(test),文件路径:"test/gaokao-geography.jsonl" - 配置名称:高考历史(gaokao-history) 数据文件: - 数据划分:开发集(dev),文件路径:"dev/gaokao-history.jsonl" - 数据划分:测试集(test),文件路径:"test/gaokao-history.jsonl" - 配置名称:高考数学完形填空(gaokao-mathcloze) 数据文件: - 数据划分:开发集(dev),文件路径:"dev/gaokao-mathcloze.jsonl" - 数据划分:测试集(test),文件路径:"test/gaokao-mathcloze.jsonl" - 配置名称:高考数学问答(gaokao-mathqa) 数据文件: - 数据划分:开发集(dev),文件路径:"dev/gaokao-mathqa.jsonl" - 数据划分:测试集(test),文件路径:"test/gaokao-mathqa.jsonl" - 配置名称:高考物理(gaokao-physics) 数据文件: - 数据划分:开发集(dev),文件路径:"dev/gaokao-physics.jsonl" - 数据划分:测试集(test),文件路径:"test/gaokao-physics.jsonl" - 配置名称:jec-qa-ca 数据文件: - 数据划分:开发集(dev),文件路径:"dev/jec-qa-ca.jsonl" - 数据划分:测试集(test),文件路径:"test/jec-qa-ca.jsonl" - 配置名称:jec-qa-kd 数据文件: - 数据划分:开发集(dev),文件路径:"dev/jec-qa-kd.jsonl" - 数据划分:测试集(test),文件路径:"test/jec-qa-kd.jsonl" - 配置名称:逻辑问答-英语(logiqa-en) 数据文件: - 数据划分:开发集(dev),文件路径:"dev/logiqa-en.jsonl" - 数据划分:测试集(test),文件路径:"test/logiqa-en.jsonl" - 配置名称:逻辑问答-中文(logiqa-zh) 数据文件: - 数据划分:开发集(dev),文件路径:"dev/logiqa-zh.jsonl" - 数据划分:测试集(test),文件路径:"test/logiqa-zh.jsonl" - 配置名称:LSAT分析推理(lsat-ar) 数据文件: - 数据划分:开发集(dev),文件路径:"dev/lsat-ar.jsonl" - 数据划分:测试集(test),文件路径:"test/lsat-ar.jsonl" - 配置名称:LSAT逻辑推理(lsat-lr) 数据文件: - 数据划分:开发集(dev),文件路径:"dev/lsat-lr.jsonl" - 数据划分:测试集(test),文件路径:"test/lsat-lr.jsonl" - 配置名称:LSAT阅读理解(lsat-rc) 数据文件: - 数据划分:开发集(dev),文件路径:"dev/lsat-rc.jsonl" - 数据划分:测试集(test),文件路径:"test/lsat-rc.jsonl" - 配置名称:数学问答(math) 数据文件: - 数据划分:开发集(dev),文件路径:"dev/math.jsonl" - 数据划分:测试集(test),文件路径:"test/math.jsonl" - 配置名称:SAT英语(sat-en) 数据文件: - 数据划分:开发集(dev),文件路径:"dev/sat-en.jsonl" - 数据划分:测试集(test),文件路径:"test/sat-en.jsonl" - 配置名称:无文章版SAT英语(sat-en-without-passage) 数据文件: - 数据划分:开发集(dev),文件路径:"dev/sat-en-without-passage.jsonl" - 数据划分:测试集(test),文件路径:"test/sat-en-without-passage.jsonl" - 配置名称:SAT数学(sat-math) 数据文件: - 数据划分:开发集(dev),文件路径:"dev/sat-math.jsonl" - 数据划分:测试集(test),文件路径:"test/sat-math.jsonl"
提供机构:
RUCAIBox
原始信息汇总

数据集概述

该数据集包含多个配置,每个配置对应不同学科或类型的数据文件,分为开发集(dev)和测试集(test)。以下是各配置及其对应的文件路径:

配置列表

  • aqua-rat

    • 开发集: dev/aqua-rat.jsonl
    • 测试集: test/aqua-rat.jsonl
  • gaokao-biology

    • 开发集: dev/gaokao-biology.jsonl
    • 测试集: test/gaokao-biology.jsonl
  • gaokao-chemistry

    • 开发集: dev/gaokao-chemistry.jsonl
    • 测试集: test/gaokao-chemistry.jsonl
  • gaokao-chinese

    • 开发集: dev/gaokao-chinese.jsonl
    • 测试集: test/gaokao-chinese.jsonl
  • gaokao-english

    • 开发集: dev/gaokao-english.jsonl
    • 测试集: test/gaokao-english.jsonl
  • gaokao-geography

    • 开发集: dev/gaokao-geography.jsonl
    • 测试集: test/gaokao-geography.jsonl
  • gaokao-history

    • 开发集: dev/gaokao-history.jsonl
    • 测试集: test/gaokao-history.jsonl
  • gaokao-mathcloze

    • 开发集: dev/gaokao-mathcloze.jsonl
    • 测试集: test/gaokao-mathcloze.jsonl
  • gaokao-mathqa

    • 开发集: dev/gaokao-mathqa.jsonl
    • 测试集: test/gaokao-mathqa.jsonl
  • gaokao-physics

    • 开发集: dev/gaokao-physics.jsonl
    • 测试集: test/gaokao-physics.jsonl
  • jec-qa-ca

    • 开发集: dev/jec-qa-ca.jsonl
    • 测试集: test/jec-qa-ca.jsonl
  • jec-qa-kd

    • 开发集: dev/jec-qa-kd.jsonl
    • 测试集: test/jec-qa-kd.jsonl
  • logiqa-en

    • 开发集: dev/logiqa-en.jsonl
    • 测试集: test/logiqa-en.jsonl
  • logiqa-zh

    • 开发集: dev/logiqa-zh.jsonl
    • 测试集: test/logiqa-zh.jsonl
  • lsat-ar

    • 开发集: dev/lsat-ar.jsonl
    • 测试集: test/lsat-ar.jsonl
  • lsat-lr

    • 开发集: dev/lsat-lr.jsonl
    • 测试集: test/lsat-lr.jsonl
  • lsat-rc

    • 开发集: dev/lsat-rc.jsonl
    • 测试集: test/lsat-rc.jsonl
  • math

    • 开发集: dev/math.jsonl
    • 测试集: test/math.jsonl
  • sat-en

    • 开发集: dev/sat-en.jsonl
    • 测试集: test/sat-en.jsonl
  • sat-en-without-passage

    • 开发集: dev/sat-en-without-passage.jsonl
    • 测试集: test/sat-en-without-passage.jsonl
  • sat-math

    • 开发集: dev/sat-math.jsonl
    • 测试集: test/sat-math.jsonl
搜集汇总
数据集介绍
main_image_url
构建方式
在人工智能评估领域,AGIEval数据集的构建体现了对多学科知识整合的深度考量。该数据集通过精心遴选来自中国高考、美国学术能力评估测试(SAT)、法学院入学考试(LSAT)以及数学推理等多个权威标准化考试的题目,确保了评估内容的广泛性和权威性。构建过程中,原始试题被系统性地转化为结构化数据,并以JSON Lines格式进行组织,每个子集均划分为开发集和测试集,为模型评估提供了标准化的基准框架。
特点
AGIEval数据集的核心特征在于其跨学科与跨文化的综合性设计。数据集涵盖了从生物学、化学、物理到语文、英语、历史、地理等多元学科,同时融入了逻辑推理与数学问题求解,形成了对人工智能模型综合认知能力的多维度考察。其试题来源兼具国际视野与中国本土特色,如高考题目与LSAT逻辑题的并存,使得评估能够兼顾不同教育体系下的知识表达与思维模式,为模型泛化性能的检验提供了丰富场景。
使用方法
使用AGIEval数据集进行模型评估时,研究者可依据具体的研究目标,灵活选择相应的子配置进行加载与分析。每个子集均以标准化的JSON Lines格式存储,便于通过数据加载工具直接读取。典型的应用流程包括:利用开发集进行模型调试与参数微调,随后在独立的测试集上执行严格的性能评估。该设计支持对模型在不同学科、语言及推理任务上的能力进行细粒度剖析,为衡量模型在复杂、开放域问题上的表现提供了可靠且便捷的基准平台。
背景与挑战
背景概述
在人工智能领域,评估大型语言模型的推理与知识能力已成为核心研究议题。RUCAIBox/agieval数据集由瑞莱智慧(RealAI)的研究团队于2023年构建,旨在系统性地评测模型在多样化、高难度学术与逻辑推理任务上的表现。该数据集汇聚了包括中国高考(Gaokao)、美国学术能力评估测试(SAT)、法学院入学考试(LSAT)以及数学与逻辑问答(如AQUA-RAT、LogiQA)等多个权威评估来源的题目,覆盖自然科学、人文社科及形式逻辑等多个学科。其创建不仅推动了模型能力评估向多维度、深层次发展,也为探究人工智能的通用认知水平设立了新的基准,对促进AGI(通用人工智能)研究具有深远影响。
当前挑战
该数据集致力于解决复杂问答与推理任务中的模型评估挑战,其核心难题在于如何准确衡量模型在跨学科、多语言环境下的深层推理与知识应用能力。构建过程中的挑战尤为显著:首先,数据集成需要协调来自不同国家教育体系与考试机构的多样化题目,这些题目在格式、难度及文化背景上存在显著差异,需进行细致的标准化与对齐处理;其次,确保题目的高质量与权威性涉及复杂的版权许可与学术审核流程;此外,设计能够公平评估模型而非简单模式匹配的评测框架,需克服题目泄露与数据污染风险,并建立鲁棒的评估指标以区分模型的真实推理能力与记忆效应。
常用场景
经典使用场景
在大型语言模型评估领域,AGIEval数据集以其多学科、多语言和多任务特性,成为衡量模型综合推理与知识应用能力的经典基准。该数据集广泛用于测试模型在数学、逻辑、科学及人文等领域的表现,尤其通过高考、SAT、LSAT等标准化考试题目,系统评估模型在复杂问题解决、批判性思维和跨领域知识迁移方面的性能。研究者借助其结构化评测框架,能够深入分析模型在不同认知层次任务上的优势与局限,为模型优化提供精准导向。
衍生相关工作
围绕AGIEval数据集,学术界衍生出一系列聚焦大语言模型能力评测的经典研究工作。例如,基于其多任务架构开发的层次化评估框架,深入揭示了模型在学科交叉问题上的知识融合机制;针对高考题目设计的细粒度分析工具,促进了模型解题路径的可解释性研究。这些工作不仅拓展了模型评估的维度,还催生了如动态难度适配、跨语言知识迁移等新兴研究方向,持续推动着智能系统评测方法论的前沿探索。
数据集最近研究
最新研究方向
在人工智能评估领域,AGIEval数据集以其涵盖多学科、多语言及标准化考试题目的特点,成为衡量大语言模型综合推理能力的重要基准。当前研究聚焦于利用该数据集探索模型在复杂逻辑推理、跨学科知识融合以及情境化理解方面的性能边界,尤其关注模型在高考、LSAT等高标准考试题目上的表现,以揭示其与人类认知水平的差距。相关热点事件如ChatGPT等大模型的涌现,推动了学术界对模型通用智能评估的深入探讨,该数据集的研究不仅为模型优化提供了方向,也为人工智能在教育、法律等专业领域的应用奠定了评估基础,具有显著的学术与实践意义。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作