measurement-db
收藏Measurement Data Bank (MDB) 数据集概览
数据集简介
Measurement Data Bank (MDB) 是一个经过标准化处理的 AI 评估基准响应矩阵数据集,包含来自 146 个 AI 评估基准 的响应矩阵,以 (主体 × 项目) 矩阵形式呈现,适用于项目反应理论(IRT)/心理测量学分析。该数据集由 AIMS Foundation 构建,数据托管于 HuggingFace Hub 的 aims-foundation/torch-measure-data,可通过 torch-measure 工具包使用。
基准分类与规模
三大基准列表
| 类别 | 数量 | 说明 |
|---|---|---|
| BENCHMARKS(就绪基准) | 92 个 | 包含真实的每(模型, 项目)响应矩阵 |
| BENCHMARKS_AGGREGATE(聚合型基准) | 14 个 | 仅提供条件/类别级别的聚合数据,不支持 IRT 分析 |
| BENCHMARKS_PENDING(待处理基准) | 40 个 | 仅有问题/目录,尚无多模型评估数据(其中 5 个因上游数据访问受限而暂时搁置:evalplus、bigcodebench、igakuqa119、dpai、webarena) |
就绪基准统计(最新运行结果)
| 指标 | 数值 |
|---|---|
| 至少含一个有效矩阵的基准数 | 90 个 |
| 唯一项目数(每个基准的最大变体) | 1,010,739 |
| 总项目数(所有变体求和) | 1,250,649 |
| 总单元格数(主体 × 项目值) | 248,042,874 |
| 响应矩阵总数(含变体) | 307 个 |
| 二值矩阵数 | 156 个 |
| 连续矩阵数 | 147 个 |
项目数量前十的基准
| 基准名称 | 项目数 |
|---|---|
nectar |
182,954 |
pku_saferlhf |
164,236 |
shp2 |
100,000 |
personalllm |
83,216 |
prism |
68,371 |
ultrafeedback |
63,966 |
bbq |
58,492 |
pickapic |
53,901 |
kmmlu |
35,030 |
helm_afr |
33,880 |
聚合型基准详情(14 个)
这些基准的数据以聚合率形式呈现(按试验、条件或子基准聚合),不包含逐项目响应,适用于模型级对比但不支持 IRT 分析。
| 基准名称 | 矩阵形状 | 聚合原因 |
|---|---|---|
agent_safetybench |
16 × 18 | 模型 × 类别(来自论文表格) |
agentharm |
15 × 9 | 模型 ×(攻击 × 指标)条件 |
agentic_misalignment |
18 × 18 | 模型 × 场景条件 |
aider |
178 × 6 | 模型 × Aider 子基准 |
agentbench |
29 × 8 | 模型 × 环境类型 |
browsergym |
18 × 8 | 模型 × 子基准 |
ko_leaderboard |
1159 × 9 | 模型 × 韩语基准 |
la_leaderboard |
69 × 70 | 模型 × 伊比利亚基准 |
pt_leaderboard |
1148 × 10 | 模型 × 葡萄牙语基准 |
thai_leaderboard |
72 × 19 | 模型 × 泰语基准 |
ai_safety_index |
8 × 6 | 公司 × 政策领域(治理) |
ca_dmv_disengagement |
16 × 7 | 制造商 × 地点类型 |
nhtsa_sgo |
27 × 17 | 制造商 × 车辆类型 |
scienceagentbench |
57 × 4 | 模型配置 × 聚合指标 |
待处理基准分类(40 个)
| 类别 | 基准名称 |
|---|---|
| 无公开逐项预测 | ceval、cmmlu、fineval(OpenCompass 数据受限) |
| 偏好数据无模型 ID | hh_rlhf |
| 医学问答(仅问题) | cmb、cmexam、frenchmedmcqa、medarabiq、medexpqa、medqa_chinese、mmedbench、permedcqa |
| 安全/红队测试(无多模型评估) | apollo_deception、cot_safety_behaviors、cot_unfaithfulness、gandalf、lmsys_toxicchat、reward_hacks、safeagentbench、sycophancy_subterfuge、tensortrust、atbench、bells、odcv_bench、scale_mrt、trail |
| AI 治理/事件目录 | aiid、mit_airisk、oecd_aim、responsible_ai_measures、alignment_faking |
| 对话日志 | wildchat |
| 多语言(仅问题) | agreval、asiaeval、iberbench |
数据结构与访问
目录结构(每个基准采用统一扁平布局)
<benchmark>/ build.py # 自包含流水线脚本 raw/ # 原始下载数据 processed/ response_matrix.csv # 主要输出:主体 × 项目矩阵 response_matrix.png # 热力图可视化 response_matrix_<variant>.csv # 可选:额外变体 response_matrix_<variant>.png # 可选:额外热力图 item_content.csv # (item_id, content) — 每个项目的文本 model_summary.csv # 每个主体的聚合统计 task_metadata.csv # 每个项目的元数据(类别、难度等) <benchmark>.pt # 序列化的 Torch 载荷(上传至 HF)
Python 加载方式
python from torch_measure.datasets import load, list_datasets
list_datasets() # 查看所有可用基准 rm = load("swebench") # 下载并加载为 ResponseMatrix print(rm.data.shape) # torch.Size([134, 500]) print(rm.subject_ids[:5]) # 模型名称 print(rm.item_ids[:5]) # 项目 ID print(rm.item_contents[:1]) # 实际问题/任务文本
.pt 载荷内容(单个字典)
data—torch.Tensor,形状(n_subjects, n_items),float32 类型subject_ids— 主体标识符列表(通常为模型名称)item_ids— 项目标识符列表item_contents— 项目文本列表(与item_ids对齐)subject_metadata— 可选,每个主体的元数据(来自model_summary.csv)
数据访问说明
- 大部分基准数据完全公开
- GAIA:HuggingFace 数据集需手动审批
- OpenCompass:
compass_academic_predictions受限,解锁后可让ceval、cmmlu等成为完整基准 - Terminal-Bench:查询实时 Supabase 数据库(需网络)
- WebArena:通过
gdown从 Google Drive 下载执行轨迹 - MLE-bench:使用 Git LFS 存储
runs/目录
快速运行命令
bash
安装依赖
pip install -r requirements.txt
运行所有就绪基准(下载 → 构建 → 可视化 → 上传至 HF)
python reproduce.py
运行特定基准
python reproduce.py bfcl
单独运行基准(跳过上传)
NO_UPLOAD=1 python bfcl/build.py
生成统计
python scripts/dataset_stats.py




