muat-pca-10-medium

Hugging Face2025-12-06 更新2025-12-07 收录

下载链接：

https://huggingface.co/datasets/maximuspowers/muat-pca-10-medium

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集名为'可解释性训练的主题模型'，旨在训练解释器基于激活签名识别模型分类为阳性的模式。内容包括签名提取方法、模型架构、训练数据集、分阶段训练参数、令牌计数统计和数据集字段。数据集专注于文本生成任务，并包含多种训练模式。

创建时间：

2025-12-05

原始信息汇总

数据集概述

基本描述

数据集名称: Subject Models for Interpretability Training
主要用途: 用于训练解释器，以根据激活特征识别模型将哪些模式分类为阳性。
任务类别: 文本生成

核心配置信息

特征提取

方法: 主成分分析
提示格式: 分离式
特征数据集: configs/dataset_gen/signature_dataset.json

模型架构

层数: 8 至 10 层
每层神经元数: 10 至 15 个
激活函数类型: ReLU, GELU
模式词汇大小: 10
模式序列长度: 5

训练数据

启用的模式: palindrome, sorted_ascending, sorted_descending, alternating, contains_abc, starts_with, ends_with, no_repeats, has_majority, increasing_pairs, decreasing_pairs, vowel_consonant, first_last_match, mountain_pattern
每批次模式数: 1-1
正负样本比例: 1:1
每个主题模型的目标总样本数: 250

分阶段训练

最小改进阈值: 0.05 (5.0%)
数据损坏率: 0.15 (15.0%)

数据统计

令牌数量统计

任务类型	最小令牌数	最大令牌数	平均令牌数
分类	11581	26103	18025.0

数据集字段说明

字段名	描述
`example_id`	每个样本的唯一标识符。
`metadata`	包含以下信息的JSON字符串：<br>- `target_pattern`: 训练期间被损坏的模式。<br>- `degraded_accuracy`: 在损坏数据上训练的模型的准确率。<br>- `improved_accuracy`: 在干净数据上训练后模型的准确率。<br>- `improvement`: 损坏准确率与改进准确率之间的差值。<br>- `model_config`: 主题模型的架构和超参数。<br>- `corruption_stats`: 标签损坏的详细信息。<br>- `selected_patterns`: 主题模型训练数据集中包含的所有模式。<br>- `precision`: 模型权重精度。<br>- `quantization`: 应用于权重的量化类型。<br>- `config_signature`: 用于验证的关键配置字段的哈希值。
`classification_prompt`	包含改进后的模型权重和特征的输入提示。
`classification_completion`	识别模式的目标完成文本。
`classification_text`	完整的拼接文本（提示 + 完成文本）。

搜集汇总

数据集介绍

构建方式

在机器学习可解释性研究领域，muat-pca-10-medium数据集通过精心设计的合成流程构建而成。该流程首先配置了一系列具有特定架构的主题模型，其层数介于8至10层，每层包含10至15个神经元，并采用ReLU或GELU激活函数。随后，基于预先定义的多种文本模式，如回文、排序序列等，生成训练数据，并通过受控的标签损坏机制引入噪声，以模拟模型在受损数据上的性能。最终，通过对比模型在损坏数据与清洁数据上的准确率差异，形成用于模式识别的分类任务样本，每个主题模型对应约250个示例。

特点

该数据集的核心特征在于其专为模型行为可解释性分析而定制。数据集中的每个样本均包含完整的元数据，详细记录了目标模式、模型性能指标及架构配置，为深入探究激活签名与模式分类之间的关联提供了结构化信息。其分类提示融合了改进后的模型权重与签名，要求模型根据给定的激活特征识别对应的文本模式，从而直接服务于解释器训练。此外，数据集涵盖了多样化的文本模式与模型配置，确保了评估的广泛性与鲁棒性。

使用方法

研究人员可利用该数据集训练或评估可解释性工具，旨在根据模型的激活签名推断其分类所依赖的文本模式。典型的使用流程涉及加载数据集中的分类提示与目标完成文本，将其输入至待训练的解析模型中。通过分析模型对提示的响应，并与元数据中标注的目标模式进行对比，可以量化解释器的识别能力。该数据集支持对神经元剖面方法（如PCA）的有效性进行实证检验，并可用于研究不同模型架构与训练策略对可解释性的影响。

背景与挑战

背景概述

在人工智能可解释性研究领域，理解神经网络内部表征机制是核心科学问题之一。muat-pca-10-medium数据集由相关研究团队于近期构建，旨在为模型解释器训练提供结构化支持。该数据集聚焦于文本生成任务，通过设计特定的激活签名与模式识别范例，使解释器能够依据模型激活特征识别其分类为正向的文本模式。其构建基于多层Transformer架构，涵盖多种激活函数与词汇模式，推动了神经网络行为归因与透明性分析的前沿探索，对提升深度学习模型的可信度与可靠性具有重要影响。

当前挑战

该数据集致力于解决神经网络可解释性中模式归因的挑战，即如何准确将模型输出关联至内部激活的特定模式。构建过程中面临多重困难：一是需平衡模式复杂度与模型容量，确保训练数据能有效覆盖多样化的文本结构而不致过拟合；二是设计有效的激活签名提取方法，如PCA降维，需在信息保留与计算效率间取得妥协；三是生成高质量的正负样本对，维持类别均衡以训练稳健的解释器，同时处理标签噪声与模型配置变异带来的数据一致性难题。

常用场景

经典使用场景

在可解释性人工智能领域，muat-pca-10-medium数据集被广泛用于训练模型解释器，以识别激活签名与特定模式之间的关联。该数据集通过精心设计的模式（如回文、排序序列、交替模式等）生成分类任务，使研究者能够探究神经网络内部激活如何对应外部可理解的语义特征。其典型应用场景包括分析模型在特定模式下的行为，从而揭示模型决策的底层机制，为理解黑盒模型提供了实验基础。

衍生相关工作

基于该数据集衍生的经典工作主要集中在可解释性方法评估与改进上。例如，研究者利用其构建基准测试，比较不同神经元剖面方法（如PCA）在模式识别任务上的性能；同时，它也启发了针对签名提取与模式关联的新算法设计，推动了可解释性工具的开发。这些工作进一步拓展了数据集在模型诊断、鲁棒性分析等领域的应用，形成了可解释性研究的重要分支。

数据集最近研究