MIB (Mechanistic Interpretability Benchmark)

Name: MIB (Mechanistic Interpretability Benchmark)
Creator: 东北大学, 技术学院, Pr(AI)2R Group, Allen智能研究所, 布宜诺斯艾利斯大学, 布朗大学, 阿姆斯特丹大学, 斯坦福大学, 独立, 麻省理工学院, 剑桥大学, 苏黎世联邦理工学院
Published: 2025-04-18 01:55:45
License: 暂无描述

arXiv2025-04-18 更新2025-04-21 收录

下载链接：

https://huggingface.co/collections/mib-bench/mib-datasets-67f55273612ec3067a42a56b

下载链接

链接失效反馈

官方服务：

资源简介：

MIB 数据集是由多个研究机构合作创建的机械解释性基准，旨在为评估机械解释性方法提供一套标准化的模型、数据集和评价指标。数据集包含了两个赛道，电路定位和因果变量定位，每个赛道下有多个任务。数据集的设计考虑了不同难度级别和不同类型的推理任务，通过固定 counterfactual 输入用于干预，来评估模型在不同任务上的表现。该数据集为公开，可通过 HuggingFace 访问。

The MIB dataset is a mechanistic interpretability benchmark co-developed by multiple research institutions, aiming to provide a standardized suite of models, datasets and evaluation metrics for evaluating mechanistic interpretability methods. It comprises two tracks: circuit localization and causal variable localization, each with multiple tasks. The dataset is designed with consideration of varying difficulty levels and diverse types of reasoning tasks, and evaluates model performance across different tasks by fixing counterfactual inputs for interventions. This dataset is publicly available and can be accessed via HuggingFace.

提供机构：

东北大学, 技术学院, Pr(AI)2R Group, Allen智能研究所, 布宜诺斯艾利斯大学, 布朗大学, 阿姆斯特丹大学, 斯坦福大学, 独立, 麻省理工学院, 剑桥大学, 苏黎世联邦理工学院

创建时间：

2025-04-18

搜集汇总

数据集介绍

构建方式

MIB（Mechanistic Interpretability Benchmark）数据集的构建基于对神经网络语言模型内部机制解释性的系统性评估需求。该数据集通过标准化四个任务（间接对象识别、算术运算、多项选择问答和AI2推理挑战）和五个模型（包括Llama-3.1 8B和GPT-2 Small等）的评估框架，支持对电路定位和因果变量定位两大核心范式的比较。数据集通过固定反事实输入映射和分层测试集设计（公开/私有划分），确保了评估的一致性和可重复性。具体构建过程包括任务定义、反事实干预设计、模型性能基线建立及在线排行榜的部署。

特点

MIB的核心特点体现在其双轨评估体系：电路定位轨道通过量化子图对模型行为的解释程度（CPR和CMD指标），比较不同方法在定位任务相关组件时的效能；因果变量定位轨道则评估特征化方法（如稀疏自编码器）对高层因果变量的对齐能力。数据集覆盖了不同推理类型和难度层级的任务，并引入动态对齐机制以适应变量表示的上下文依赖性。其创新性指标设计（如基于帕累托最优的电路评估）和跨模型泛化性测试（如GPT-2与Llama的对比）显著提升了方法比较的科学严谨性。

使用方法

使用MIB需分三个步骤：首先，用户基于公开训练/验证集开发电路或因果变量定位方法；其次，通过标准化API提交方法输出（如组件重要性分数或特征化函数）至排行榜系统；最后，系统在私有测试集上自动评估并生成两类指标报告。对于电路定位，需提供不同稀疏度阈值下的电路以计算CPR和CMD曲线；因果变量定位则需指定隐藏向量的干预位置和特征化方式。数据集支持快速原型开发（公开测试集）和严格基准测试（私有测试集），其模块化设计允许扩展新任务和模型。

背景与挑战

背景概述

MIB (Mechanistic Interpretability Benchmark) 是由Aaron Mueller、Atticus Geiger等研究人员于2025年提出的一个机制可解释性基准测试数据集。该数据集由Northeastern University、Technion – IIT等多个机构的研究人员共同开发，旨在为神经网络语言模型的机制可解释性方法提供标准化评估框架。MIB包含两个主要评估轨道：电路定位（circuit localization）和因果变量定位（causal variable localization），涵盖四个任务和五个模型。该数据集的创建推动了可解释性领域的量化比较，为验证新方法是否真正改进现有技术提供了科学依据。

当前挑战

MIB数据集面临的核心挑战包括：1) 在机制可解释性领域，如何准确定位神经网络中执行特定任务的关键组件及其连接关系（电路定位问题）；2) 如何将隐藏向量特征化并与高层因果变量对齐（因果变量定位问题）。在构建过程中，研究人员需要解决模型行为解释的模糊性、评估指标的标准化、跨模型比较的复杂性等挑战。具体而言，电路定位需处理组件重要性评分与真实因果路径的差异，而因果变量定位则面临特征空间与概念空间对齐的困难。此外，数据集的扩展性也需适应快速发展的模型架构和任务类型。

常用场景

经典使用场景

MIB数据集在机制可解释性研究中被广泛用于评估和比较不同方法在定位神经网络中的因果路径和变量方面的效果。其经典使用场景包括电路定位和因果变量定位两个轨道，涵盖了四个任务和五个模型。通过标准化数据集和评估指标，MIB为研究者提供了一个统一的基准，用于验证新方法是否真正改进了现有技术。

实际应用

在实际应用中，MIB数据集被用于验证和优化各种机制可解释性方法。例如，在电路定位中，研究者可以利用MIB评估不同方法在定位模型关键组件方面的效果，从而改进模型的解释性和可控性。在因果变量定位中，MIB帮助研究者验证特征化方法（如稀疏自编码器或分布式对齐搜索）的有效性，从而更好地理解和操纵模型的行为。这些应用为AI安全性和鲁棒性研究提供了重要支持。

衍生相关工作

MIB数据集衍生了许多相关经典工作，特别是在机制可解释性领域。例如，基于MIB的研究发现，归因和掩码优化方法在电路定位中表现最佳，而监督式DAS方法在因果变量定位中优于其他方法。这些发现不仅验证了现有方法的有效性，还推动了新方法的发展。此外，MIB的公开排行榜和标准化评估框架为后续研究提供了重要参考，促进了该领域的持续进步。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集