baber/agieval
收藏Hugging Face2023-10-26 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/baber/agieval
下载链接
链接失效反馈官方服务:
资源简介:
AGIEval是一个以人为中心的基准测试,专门设计用于评估基础模型在人类认知和问题解决相关任务中的一般能力。该基准测试来源于20个官方、公开和高标准的入学和资格考试,这些考试面向普通人类考生,如大学入学考试(如中国高考和美国SAT)、法学院入学考试、数学竞赛、律师资格考试和国家公务员考试。
AGIEval is a human-centric benchmark specifically designed to evaluate the general capabilities of foundation models in tasks associated with human cognition and problem-solving. This benchmark is sourced from 20 official, public, and high-standard admission and qualification examinations targeting regular human test-takers, including college entrance examinations (such as China's Gaokao and the US SAT), Law School Admission Test (LSAT), mathematics competitions, bar examinations, and national civil service examinations.
提供机构:
baber
原始信息汇总
数据集概述
数据集名称
AGIEval
数据集描述
AGIEval是一个以人为中心的基准,专门设计来评估基础模型在与人认知和问题解决相关的任务中的通用能力。该基准源自20个官方、公开、高标准的人类考试,包括大学入学考试(如中国高考和美国SAT)、法学院入学考试、数学竞赛、律师资格考试和国家公务员考试。
数据集用途
用于评估基础模型在人类认知和问题解决任务中的表现。
数据集类别
- 问题回答
- 文本生成
许可证
MIT
语言
英语
引用信息
@misc{zhong2023agieval, title={AGIEval: A Human-Centric Benchmark for Evaluating Foundation Models}, author={Wanjun Zhong and Ruixiang Cui and Yiduo Guo and Yaobo Liang and Shuai Lu and Yanlin Wang and Amin Saied and Weizhu Chen and Nan Duan}, year={2023}, eprint={2304.06364}, archivePrefix={arXiv}, primaryClass={cs.CL} }
搜集汇总
数据集介绍
构建方式
AGIEval数据集的构建,以人类认知与问题解决为核心,精选源自20项官方、公开且具有高标准的人类考生入学与资格考试,涵盖了中国高考、美国SAT、法学院入学考试、数学竞赛、律师资格考试以及国家公务员考试等,旨在为评估基础模型在模拟人类智能任务方面的一般能力提供基准。
特点
该数据集具有显著的人类中心特性,其问题与解答均紧密围绕人类认知模式设计,涵盖了广泛的知识领域与复杂的逻辑推理过程,对于衡量模型在理解和解决现实世界问题方面的能力提供了全面的评价标准。
使用方法
使用AGIEval数据集,研究者可以通过模型在各项任务中的表现来评估其性能。数据集的官方仓库提供了详细的读取和使用指南,用户需遵循相关规范,以确保数据集的合理利用和评估结果的准确性。
背景与挑战
背景概述
AGIEval数据集,作为一项以人类为中心的评价基准,旨在评测基础模型在与人脑认知和问题解决相关的任务上的通用能力。该数据集由微软研究院开发,并于2023年通过论文《AGIEval: A Human-Centric Benchmark for Evaluating Foundation Models》对外公布。AGIEval的构建,基于20项面向普通考生的高标准官方公开入学及资格考试,涵盖了诸如中国高考、美国SAT、法学院入学考试、数学竞赛、律师资格考试以及国家公务员考试等。这些考试内容为数据集提供了丰富的评价场景,使得AGIEval在评估模型能力方面具有极高的参考价值,对促进人工智能领域的发展产生了深远影响。
当前挑战
AGIEval数据集在构建和应用过程中面临诸多挑战。首先,如何精确模拟人类认知过程,使得评价结果能够真实反映模型在解决实际问题时的能力,是一大挑战。其次,数据集涵盖了多种类型和难度的问题,构建一个既能全面又能平衡各种问题类型和难度的评价体系,对于研究人员来说也是一项艰巨的任务。此外,如何确保评价结果的公正性和可靠性,以及如何处理和解决评价过程中可能出现的偏差问题,都是AGIEval数据集在应用过程中需要不断探索和解决的问题。
常用场景
经典使用场景
在人工智能领域,尤其是自然语言处理的研究中,AGIEval数据集以其独特的设计理念,成为评估基础模型在模拟人类认知和问题解决能力方面的重要工具。该数据集的构建基于二十项面向普通考生的官方、公开、高标准入学和资格认证考试,包括诸如中国高考、美国SAT、法学院入学考试、数学竞赛、律师资格考试以及国家公务员考试等。经典的使用场景在于,研究者利用AGIEval对模型进行基准测试,以评估模型在处理与人类认知密切相关任务时的表现,如数学问题解答、逻辑推理等。
衍生相关工作
AGIEval数据集的出现激发了诸多相关研究工作,如Program Induction by Rationale Generation、Measuring Mathematical Problem Solving With the MATH Dataset、LogiQA: A Challenge Dataset for Machine Reading Comprehension with Logical Reasoning等,这些研究进一步拓展了数据集的应用范围,推动了人工智能在数学问题解决、逻辑推理等领域的发展,丰富了人工智能技术的应用场景。
数据集最近研究
最新研究方向
AGIEval数据集的诞生,是对基础模型在人类认知与问题解决任务中通用能力评估的一次重要探索。该数据集从二十项面向普通考生的官方、公开、高标准入学及资格考试中提炼而成,涵盖了诸如中国高考、美国SAT等考试内容,旨在为评估模型在数学、逻辑推理等领域的表现提供基准。近期研究聚焦于利用AGIEval对基础模型的数学问题解决能力进行深入分析,进而推动模型在这些任务上的性能优化,提升其在复杂推理任务中的应用水平。此类研究不仅对理解模型的认知能力具有重要的学术价值,也对促进人工智能在教育、法律等领域的实际应用具有深远的影响。
以上内容由遇见数据集搜集并总结生成



