five

lighteval/agi_eval_en

收藏
Hugging Face2025-12-18 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/lighteval/agi_eval_en
下载链接
链接失效反馈
官方服务:
资源简介:
AGIEval是一个以人为中心的基准测试,专门设计用于评估基础模型在与人类认知和问题解决相关的任务中的一般能力。该基准测试来源于20个官方、公开且高标准的入学和资格考试,这些考试面向普通人类考生,如大学入学考试(如中国高考和美国SAT)、法学院入学考试、数学竞赛、律师资格考试和国家公务员考试等。数据集包含多个配置(aqua_rat、logiqa-en、lsat-ar、lsat-lr、lsat-rc、math、sat-en、sat-math),具有篇章、问题、选项、标签和答案等特征。每个配置都有训练和验证分割,并指定了字节数和示例数。

AGIEval is a human-centric benchmark specifically designed to evaluate the general abilities of foundation models in tasks pertinent to human cognition and problem-solving. This benchmark is derived from 20 official, public, and high-standard admission and qualification exams intended for general human test-takers, such as general college admission tests (e.g., Chinese College Entrance Exam (Gaokao) and American SAT), law school admission tests, math competitions, lawyer qualification tests, and national civil service exams. The dataset includes multiple configurations (aqua_rat, logiqa-en, lsat-ar, lsat-lr, lsat-rc, math, sat-en, sat-math) with features such as passage, question, options, label, and answer. Each configuration has train and validation splits with specified numbers of bytes and examples.
提供机构:
lighteval
原始信息汇总

数据集概述

简介

AGIEval是一个以人为中心的基准测试,专门设计用于评估基础模型在与人认知和问题解决相关的任务中的通用能力。该基准测试源自20个官方、公开且高标准的人类入学和资格考试,如普通大学入学考试(例如中国高考(Gaokao)和美国SAT)、法学院入学考试、数学竞赛、律师资格考试和国家公务员考试。

参考文献

有关该基准测试的完整描述,请参阅我们的论文:AGIEval: A Human-Centric Benchmark for Evaluating Foundation Models

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作