measurement-db

Hugging Face2026-04-24 更新2026-04-25 收录

下载链接：

https://huggingface.co/datasets/aims-foundations/measurement-db

下载链接

链接失效反馈

官方服务：

资源简介：

Measurement Data Bank (MDB) 是一个包含146个AI评估基准的响应矩阵的数据集，这些矩阵已标准化为`(subjects × items)`格式，用于IRT（项目反应理论）和心理测量分析。该数据集由AIMS Foundation维护，旨在为AI模型评估提供标准化数据。数据集分为三类：92个已准备好的基准（包含真实的每模型每项目响应矩阵）、14个仅聚合的基准（包含模型级别的聚合数据，不支持IRT分析）和40个待处理的基准（目前仅包含问题或目录，无多模型评估数据）。数据集总规模包括1,010,739个唯一项目（最大变体）和248,042,874个单元格（subject × item值）。每个基准包含自包含的`build.py`脚本，用于下载原始数据、构建响应矩阵、生成热图并上传至HuggingFace Hub。数据集适用于AI模型评估、心理测量分析和IRT研究。

Measurement Data Bank (MDB) is a dataset containing response matrices from 146 AI evaluation benchmarks, standardized in `(subjects × items)` format for IRT (Item Response Theory) and psychometric analysis. Maintained by the AIMS Foundation, the dataset aims to provide standardized data for AI model evaluation. It is divided into three categories: 92 prepared benchmarks (containing real per-model per-item response matrices), 14 aggregated-only benchmarks (containing model-level aggregated data, not supporting IRT analysis), and 40 pending benchmarks (currently only containing questions or directories, without multi-model evaluation data). The total dataset size includes 1,010,739 unique items (maximum variant) and 248,042,874 cells (subject × item values). Each benchmark contains a self-contained `build.py` script for downloading raw data, constructing response matrices, generating heatmaps, and uploading to the HuggingFace Hub. The dataset is suitable for AI model evaluation, psychometric analysis, and IRT research.

创建时间：

2026-04-13

原始信息汇总

Measurement Data Bank (MDB) 数据集概览

数据集简介

Measurement Data Bank (MDB) 是一个经过标准化处理的 AI 评估基准响应矩阵数据集，包含来自 146 个 AI 评估基准 的响应矩阵，以 (主体 × 项目) 矩阵形式呈现，适用于项目反应理论（IRT）/心理测量学分析。该数据集由 AIMS Foundation 构建，数据托管于 HuggingFace Hub 的 aims-foundation/torch-measure-data，可通过 torch-measure 工具包使用。

基准分类与规模

三大基准列表

类别	数量	说明
BENCHMARKS（就绪基准）	92 个	包含真实的每（模型, 项目）响应矩阵
BENCHMARKS_AGGREGATE（聚合型基准）	14 个	仅提供条件/类别级别的聚合数据，不支持 IRT 分析
BENCHMARKS_PENDING（待处理基准）	40 个	仅有问题/目录，尚无多模型评估数据（其中 5 个因上游数据访问受限而暂时搁置：`evalplus`、`bigcodebench`、`igakuqa119`、`dpai`、`webarena`）

就绪基准统计（最新运行结果）

指标	数值
至少含一个有效矩阵的基准数	90 个
唯一项目数（每个基准的最大变体）	1,010,739
总项目数（所有变体求和）	1,250,649
总单元格数（主体 × 项目值）	248,042,874
响应矩阵总数（含变体）	307 个
二值矩阵数	156 个
连续矩阵数	147 个

项目数量前十的基准

基准名称	项目数
`nectar`	182,954
`pku_saferlhf`	164,236
`shp2`	100,000
`personalllm`	83,216
`prism`	68,371
`ultrafeedback`	63,966
`bbq`	58,492
`pickapic`	53,901
`kmmlu`	35,030
`helm_afr`	33,880

聚合型基准详情（14 个）

这些基准的数据以聚合率形式呈现（按试验、条件或子基准聚合），不包含逐项目响应，适用于模型级对比但不支持 IRT 分析。

基准名称	矩阵形状	聚合原因
`agent_safetybench`	16 × 18	模型 × 类别（来自论文表格）
`agentharm`	15 × 9	模型 ×（攻击 × 指标）条件
`agentic_misalignment`	18 × 18	模型 × 场景条件
`aider`	178 × 6	模型 × Aider 子基准
`agentbench`	29 × 8	模型 × 环境类型
`browsergym`	18 × 8	模型 × 子基准
`ko_leaderboard`	1159 × 9	模型 × 韩语基准
`la_leaderboard`	69 × 70	模型 × 伊比利亚基准
`pt_leaderboard`	1148 × 10	模型 × 葡萄牙语基准
`thai_leaderboard`	72 × 19	模型 × 泰语基准
`ai_safety_index`	8 × 6	公司 × 政策领域（治理）
`ca_dmv_disengagement`	16 × 7	制造商 × 地点类型
`nhtsa_sgo`	27 × 17	制造商 × 车辆类型
`scienceagentbench`	57 × 4	模型配置 × 聚合指标

待处理基准分类（40 个）

类别	基准名称
无公开逐项预测	`ceval`、`cmmlu`、`fineval`（OpenCompass 数据受限）
偏好数据无模型 ID	`hh_rlhf`
医学问答（仅问题）	`cmb`、`cmexam`、`frenchmedmcqa`、`medarabiq`、`medexpqa`、`medqa_chinese`、`mmedbench`、`permedcqa`
安全/红队测试（无多模型评估）	`apollo_deception`、`cot_safety_behaviors`、`cot_unfaithfulness`、`gandalf`、`lmsys_toxicchat`、`reward_hacks`、`safeagentbench`、`sycophancy_subterfuge`、`tensortrust`、`atbench`、`bells`、`odcv_bench`、`scale_mrt`、`trail`
AI 治理/事件目录	`aiid`、`mit_airisk`、`oecd_aim`、`responsible_ai_measures`、`alignment_faking`
对话日志	`wildchat`
多语言（仅问题）	`agreval`、`asiaeval`、`iberbench`

数据结构与访问

目录结构（每个基准采用统一扁平布局）

<benchmark>/ build.py # 自包含流水线脚本 raw/ # 原始下载数据 processed/ response_matrix.csv # 主要输出：主体 × 项目矩阵 response_matrix.png # 热力图可视化 response_matrix_<variant>.csv # 可选：额外变体 response_matrix_<variant>.png # 可选：额外热力图 item_content.csv # (item_id, content) — 每个项目的文本 model_summary.csv # 每个主体的聚合统计 task_metadata.csv # 每个项目的元数据（类别、难度等） <benchmark>.pt # 序列化的 Torch 载荷（上传至 HF）

Python 加载方式

python from torch_measure.datasets import load, list_datasets

list_datasets() # 查看所有可用基准 rm = load("swebench") # 下载并加载为 ResponseMatrix print(rm.data.shape) # torch.Size([134, 500]) print(rm.subject_ids[:5]) # 模型名称 print(rm.item_ids[:5]) # 项目 ID print(rm.item_contents[:1]) # 实际问题/任务文本

`.pt` 载荷内容（单个字典）

data — torch.Tensor，形状 (n_subjects, n_items)，float32 类型
subject_ids — 主体标识符列表（通常为模型名称）
item_ids — 项目标识符列表
item_contents — 项目文本列表（与 item_ids 对齐）
subject_metadata — 可选，每个主体的元数据（来自 model_summary.csv）

数据访问说明

大部分基准数据完全公开
GAIA：HuggingFace 数据集需手动审批
OpenCompass：compass_academic_predictions 受限，解锁后可让 ceval、cmmlu 等成为完整基准
Terminal-Bench：查询实时 Supabase 数据库（需网络）
WebArena：通过 gdown 从 Google Drive 下载执行轨迹
MLE-bench：使用 Git LFS 存储 runs/ 目录

快速运行命令

bash

安装依赖

pip install -r requirements.txt

运行所有就绪基准（下载 → 构建 → 可视化 → 上传至 HF）

python reproduce.py

运行特定基准

python reproduce.py bfcl

单独运行基准（跳过上传）

NO_UPLOAD=1 python bfcl/build.py

生成统计

python scripts/dataset_stats.py

搜集汇总

数据集介绍

构建方式

Measurement Data Bank (MDB) 是以项目反应理论为框架，系统性地从146个AI评估基准中提取并标准化响应矩阵的数据集合。每一基准均配备独立的 build.py 脚本，该脚本自动完成原始数据下载、构建形如“被试×项目”的响应矩阵、生成热力图可视化，并将结果序列化为 .pt 格式的PyTorch载荷文件，最终上传至HuggingFace Hub。整个流程通过 reproduce.py 进行编排，支持批量或单一基准的运行，并可通过环境变量控制上传行为，确保了构建过程的高度可复现性与模块化。

使用方法

用户可通过 torch-measure 库便捷地调用该数据集，使用 list_datasets() 浏览可用基准，并通过 load() 函数以基准名称加载对应的 ResponseMatrix 对象，即可获得包含响应数据张量、被试编号、项目编号及项目内容的结构化字典。对于希望自行构建或扩展数据集的开发者，可创建遵循统一目录布局与脚本规范的 build.py，将其名称注册至 reproduce.py 的相应列表中，并执行本地测试与上传，从而无缝纳入MDB的标准化处理管线。

背景与挑战

背景概述

Measurement Data Bank（MDB）是由斯坦福大学AIMS实验室于2023年创建并持续维护的大规模AI评估基准数据集，汇集了来自146个主流基准测试的结构化响应矩阵。该数据集的核心研究问题在于将分散的模型评估结果统一转化为标准化的（被试×项目）矩阵格式，为项目反应理论和心理测量分析提供结构化数据基础。MDB囊括了92个已就绪的基准测试，涵盖超过100万个独立项目和近2.5亿个数据单元，如nectar、pku_saferlhf、shp2等热门基准均被收录。该数据集的发布填补了AI评估领域中跨基准标准化数据整合的空白，使得研究者能够系统性地对不同模型的性能进行横向比较和心理测量学分析，对AI评估方法论的发展产生了深远影响。

当前挑战

MDB数据集所解决的核心领域挑战是AI评估体系中数据碎片化与标准缺失问题。传统模型评估数据分散于各个独立基准，格式不一、结构各异，难以开展跨基准的统计分析与理论建模。MDB通过创建统一的（被试×项目）矩阵格式，使项目反应理论分析在AI评估中成为可能。在构建过程中，团队遭遇了多重技术挑战：首先，不同基准的数据访问权限差异显著，GAIA等5个基准因数据封闭而无法获取完整信息；其次，数据格式异构性极高，需分别为92个基准编写独立的build.py脚本实现数据下载、矩阵构建与可视化；第三，部分基准仅提供聚合数据而非逐项响应，导致14个基准只能以聚合形式收录，无法支持精细的IRT分析；此外，40个待处理基准因缺乏公开的逐项预测数据而只能作为问题目录存在。

常用场景

经典使用场景

在人工智能评估领域，Measurement Data Bank（MDB）作为一项系统性的数据基础设施，其经典使用场景在于为大规模语言模型（LLM）的评估提供标准化的响应矩阵。该数据集汇集了来自146个AI评测基准的细粒度模型-项目二元响应数据，并通过统一的(subjects × items)矩阵形式呈现，旨在服务于项目反应理论（IRT）和心理测量学分析。研究者可借助MDB中涵盖超过100万独特项目、2.48亿响应单元格的丰富数据，深入探究不同模型在各评测维度上的能力分布与行为模式，从而突破传统聚合指标在刻画模型表现时的局限性。

解决学术问题

MDB数据集主要解决了AI评估领域中长期存在的多基准数据碎片化与格式不统一的核心学术难题。通过将92个现成基准的原始响应数据转化为结构化的张量负载文件（.pt），该数据集为心理测量学方法在模型能力建模中的系统应用铺平了道路。研究者得以利用IRT模型对模型的潜在特质进行参数估计，揭示不同评估任务间的内在关联，并量化各测试项目的区分度与难度。这一数据基础设施的建立，不仅弥补了当前AI评估中缺乏细粒度、可复现的个体响应数据的空白，更推动了评估方法论从描述性统计向推断性建模的范式转变。

实际应用

在实际应用层面，MDB数据集为AI开发者和评测机构提供了直接可用的工具，用于模型的横向对比、能力画像构建以及安全审计。例如，开发者可通过加载swebench等基准的响应矩阵，快速计算模型在特定代码场景下的正确率与一致性。该数据集还支持对模型在医疗问答、多语言理解等领域进行细粒度诊断，尤其在安全与对齐评估中，通过分析模型在red teaming样本上的响应模式，帮助识别潜在的欺骗性行为与对齐失败风险。此外，MDB的自动化构建流水线使得每周的数据更新成为可能，确保了评测基准与前沿模型演进的同步性。

数据集最近研究