FIND
收藏arXiv2023-12-08 更新2024-06-21 收录
下载链接:
https://github.com/multimodal-interpretability/FIND
下载链接
链接失效反馈官方服务:
资源简介:
FIND数据集是由麻省理工学院计算机科学与人工智能实验室和东北大学创建的,旨在评估自动化解释性方法的构建块。该数据集包含2000个程序,这些程序模拟了训练过的神经网络的组件,并附有我们希望生成的描述类型。这些函数跨文本和数值领域程序化构建,涉及噪声、组合、近似和偏差等多种现实复杂性。数据集旨在帮助研究人员评估和比较开放式标签工具的效能,以及探索语言模型在解释性任务中的应用。FIND数据集特别关注黑盒函数描述范式,因为这种描述作为现有自动化解释方法的子程序或唯一操作实现。
The FIND Dataset was developed by the MIT Computer Science and Artificial Intelligence Laboratory (MIT CSAIL) and Northeastern University, aiming to evaluate the building blocks of automated interpretability methods. This dataset contains 2000 programs that simulate components of trained neural networks, paired with the target types of descriptions we aim to generate. These programs are programmatically constructed across both textual and numerical domains, incorporating various real-world complexities such as noise, compositionality, approximation, and bias. The dataset is designed to help researchers evaluate and compare the performance of open-ended labeling tools, as well as explore the applications of language models in interpretability tasks. The FIND Dataset specifically focuses on the black-box function description paradigm, as such descriptions serve as either subroutines or the sole operational implementation of existing automated interpretability methods.
提供机构:
麻省理工学院计算机科学与人工智能实验室
创建时间:
2023-09-08
搜集汇总
数据集介绍

构建方式
在可解释性研究领域,构建具有已知先验结构的基准测试集对于评估自动化方法至关重要。FIND数据集通过程序化生成方式构建,涵盖了数值、字符串以及合成神经模块三大类函数。具体而言,数值函数从预定义的原子函数库中采样,并通过组合、噪声添加、域损坏及近似等操作引入复杂性;字符串函数则基于常见的字符串操作(如反转、替换)及其组合生成;合成神经模块则利用预训练语言模型Vicuna-13B作为骨干,模拟真实神经网络中观察到的语义关联和事实映射行为。整个数据集包含超过2000个函数解释问题,每个函数均以独立的Python脚本封装,支持黑盒访问与交互式探测。
特点
FIND数据集的核心特点在于其多样性与真实性。它跨越数值、文本及语义三大领域,不仅包含基础的数学运算与字符串处理,还模拟了神经网络中常见的多义性、组合性及任务误指定等现象。数据集通过引入噪声、偏差、近似和域损坏等现实世界复杂性,有效考验解释方法的鲁棒性。此外,FIND提供了结构化评估协议,支持对代码描述和自然语言描述进行量化评估,其中语言描述采用单元测试协议,由微调后的Vicuna评估器进行判断,确保了评估的准确性与可扩展性。这些特点使得FIND能够全面检验自动化解释方法在多种场景下的性能。
使用方法
使用FIND数据集时,解释器需通过黑盒方式访问目标函数,即仅能通过调用Python脚本获取输入输出对。解释过程可分为非交互式与交互式两种范式:非交互式方法基于预计算的示例集生成描述,类似于MILAN等现有方法;交互式方法则引入自动化可解释性代理,通过自主设计实验、形成假设并依据观测结果迭代更新描述,模拟科学研究流程。评估阶段,数值与字符串函数的代码描述通过归一化均方误差或精确匹配进行评分;自然语言描述则通过单元测试协议,由评估器判断描述与真实函数行为的一致性。用户可根据研究需求,选择不同解释策略与评估指标,以系统衡量自动化可解释性工具的效能。
背景与挑战
背景概述
FIND(Function INterpretation and Description)基准由麻省理工学院计算机科学与人工智能实验室(MIT CSAIL)等机构的研究团队于2023年提出,旨在系统评估自动化可解释性方法的性能。该数据集聚焦于神经网络子模块的人类可读描述生成,核心研究问题在于如何量化验证开放式标注工具的有效性,以应对日益复杂的大规模模型解释需求。FIND通过程序化构建涵盖数值、字符串及合成神经模块的多样化函数集合,模拟真实神经网络中的多义性、组合性等复杂行为,为可解释性研究提供了标准化评估框架,显著推动了自动化机制解释领域的方法论发展。
当前挑战
FIND所针对的核心领域挑战在于自动化生成并验证神经网络子模块的精确描述,这要求方法能够从黑盒函数中推断全局行为与局部细节。具体构建挑战包括:第一,设计既反映真实网络复杂性(如噪声、组合、近似和偏见)又保持结构已知的函数集合,以提供可靠评估基础;第二,建立稳健的评估协议,特别是针对自然语言描述,需开发如单元测试等指标来准确衡量描述与真实函数行为的一致性;第三,确保合成神经模块(如基于Vicuna的实体与关系函数)的可靠实现,并在评估中处理语言模型可能存在的偏差与局限性。
常用场景
经典使用场景
在可解释性研究领域,FIND数据集作为评估自动化解释方法性能的基准套件,其经典使用场景聚焦于对黑盒函数描述能力的系统性测试。研究者利用该数据集模拟神经网络组件的复杂行为,通过设计涵盖数值运算、字符串操作及语义关联的多样化函数,评估解释代理能否通过自主实验与假设检验,准确推断并描述未知函数的内在逻辑。这一场景为比较不同解释方法的鲁棒性与泛化能力提供了标准化平台。
实际应用
在实际应用层面,FIND数据集为开发可靠的自动化可解释性代理提供了关键训练与验证环境。基于该数据集构建的解释代理能够模拟科学探究过程,自主设计实验、生成假设并迭代更新描述,此类能力可迁移至真实神经网络的分析中,用于识别模型偏差、检测功能异常或解释决策依据。例如,在公平性审计或故障诊断场景中,经过FIND评估的代理可辅助揭示模型在特定输入域中的异常行为,提升AI系统的透明性与可信度。
衍生相关工作
FIND数据集催生了一系列围绕自动化可解释性代理的经典研究工作。以Automated Interpretability Agent为代表的方法,将大型语言模型与黑盒函数访问能力结合,实现了交互式假设生成与实验验证的完整流程。同时,该数据集推动了如MILAN等非交互式描述方法的性能基准测试,并促进了结合预计算范例与交互探索的混合方法发展。这些衍生工作共同深化了对语言模型作为可解释性骨干潜力的理解,并为构建下一代解释工具提供了方法论基础。
以上内容由遇见数据集搜集并总结生成



