Alvorada-bench

Hugging Face2025-08-19 更新2025-08-22 收录

下载链接：

https://huggingface.co/datasets/HenriqueGodoy/Alvorada-bench

下载链接

链接失效反馈

官方服务：

资源简介：

Alvorada Bench数据集包含了来自巴西五大大学入学考试（ENEM、FUVEST、UNICAMP、ITA、IME）的4515个多项选择题，时间跨度为32年（1981-2025年），以及20个大型语言模型的响应。

创建时间：

2025-08-13

搜集汇总

数据集介绍

构建方式

在巴西高等教育评估领域，Alvorada-bench数据集系统性地整合了五大权威入学考试（ENEM、FUVEST、UNICAMP、ITA、IME）1981至2025年间的4515道选择题。构建过程采用标准化数据提取流程，每道题目均标注唯一标识符、学科分类、题目陈述、标准答案及五项选项，并通过元数据字段记录考试名称、年份和类型，形成结构化的问题库。

特点

该数据集显著特征体现在其时空跨度与多维标注体系：覆盖32年考试历程，包含27万余条大语言模型响应记录，每个响应均标注难度系数与不确定性等级（1-10标度），并依据布鲁姆分类法进行认知复杂度分级。模型响应数据涵盖20种主流大语言模型在零样本、角色扮演和思维链三种提示策略下的表现，为研究模型在教育领域的推理能力提供丰富维度。

使用方法

研究者可通过加载questions和responses两个配置模块开展实证分析：questions模块提供原始试题及标准答案，用于构建评估基准；responses模块包含模型预测结果与元数据，支持跨模型性能对比、提示策略效果验证以及认知难度相关性研究。数据集采用CSV格式存储，可直接通过HuggingFace数据集库加载，兼容主流机器学习框架进行批量处理与统计分析。

背景与挑战

背景概述

Alvorada-bench数据集诞生于巴西高等教育评估智能化转型的关键时期，由本土研究团队于2025年前后构建完成。该数据集系统整合了巴西五大权威高校入学考试（ENEM、FUVEST、UNICAMP、ITA、IME）跨越1981至2025年间的4515道选择题，旨在为葡萄牙语教育场景下的大语言模型能力评估提供标准化基准。其核心研究聚焦于多学科知识推理、跨年度试题难度校准以及认知复杂度分类体系构建，为拉丁美洲教育科技领域提供了首个覆盖32年时间跨度的标准化评估工具，显著推动了葡语区教育智能化研究的可比性与可复现性。

当前挑战

该数据集致力于解决葡语教育场景下大语言模型的多学科知识评估难题，面临试题语义深度解析、跨学科知识融合推理以及文化语境敏感性三大核心挑战。在构建过程中，研究团队需克服历史试题数字化质量不均、标准答案权威性验证、以及Bloom认知分类体系的多专家标注一致性等难题，同时还要确保不同年代试题难度系数的纵向可比性，这些挑战使得数据清洗与标注工作成为极具复杂性的系统工程。

常用场景

经典使用场景

在巴西高等教育评估领域，Alvorada-bench数据集通过系统整合五大权威入学考试的4515道选择题，为葡萄牙语大语言模型的能力评估提供了标准化测试平台。研究者可基于该数据集构建多维评估框架，从学科知识掌握、逻辑推理能力到认知复杂度分类，全面衡量模型在巴西教育语境下的表现。其跨越32年的时间跨度更使得纵向分析教育命题趋势成为可能。

衍生相关工作

基于该数据集衍生的经典研究包括《葡萄牙语大语言模型的认知能力分层评估》，该工作首次建立了布鲁姆分类法与模型表现的映射关系。另有多篇研究利用其时间序列特征分析巴西教育命题演变规律，开发出具有时序适应性的智能测评框架，推动了葡萄牙语教育智能化评估方法的发展。

数据集最近研究