five

animal_dataset_activations

收藏
Hugging Face2025-12-25 更新2025-12-26 收录
下载链接:
https://huggingface.co/datasets/nirmalendu01/animal_dataset_activations
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集名为'动物数据集激活',包含从处理动物数据集的各种模型中捕获的神经网络激活。数据集按模型(子集)和层(分割)组织,每个模型有自己的目录,每个层有自己的parquet文件目录。数据集包括来自Qwen_Qwen2.5-7B-Instruct、clip、facebook_dinov2-base和stabilityai_stable-diffusion-xl-base-1.0等模型的激活。README提供了如何加载数据集的详细信息,包括示例和每个模型的层统计信息。还提到了源数据集、parquet文件的格式、使用示例以及数据集结构的注意事项。

This dataset is named 'Animal Dataset Activations'. It contains neural network activations captured from various models that process animal datasets. The dataset is organized by model (subset) and layer (partition): each model has its own dedicated directory, and each layer has its own directory for Parquet files. The activations included in the dataset originate from models such as Qwen_Qwen2.5-7B-Instruct, CLIP, facebook_dinov2-base, and stabilityai_stable-diffusion-xl-base-1.0. The README document provides detailed guidance on loading the dataset, including usage examples and layer-wise statistics for each model. It also documents the source dataset, the format of Parquet files, additional usage examples, and important considerations regarding the dataset structure.
创建时间:
2025-12-23
原始信息汇总

Animal Dataset Activations 数据集概述

数据集简介

此数据集包含多个模型在处理 animal_dataset 时捕获的神经网络激活值。

数据集结构

数据集按模型(子集)和层(分割)组织:

  • 模型(子集):每个模型拥有独立的目录。
  • 层(分割):模型内的每一层拥有独立的目录,目录中包含 Parquet 文件。

文件组织格式为:{model_name}/{layer_name}/*.parquet

包含的模型与配置

数据集包含以下四个模型配置,每个配置下包含多个特定层的激活数据:

  1. Qwen_Qwen2.5-7B-Instruct

    • 包含层:model_layers_15model_layers_27(共13层)。
  2. clip

    • 包含层:
      • 图像视觉变换器残差块:image_visual_transformer_resblocks_12image_visual_transformer_resblocks_23(共12层)。
      • 文本变换器残差块:text_transformer_resblocks_6text_transformer_resblocks_11(共6层)。
  3. facebook_dinov2-base

    • 包含层:encoder_layer_6encoder_layer_11(共6层)。
  4. stabilityai_stable-diffusion-xl-base-1.0

    • 包含层:text_encoder_2_text_encoder_2_text_model_encoder_layers_20text_encoder_2_text_encoder_2_text_model_encoder_layers_31(共12层)。

数据加载方式

推荐方法:使用子集/分割API

python from datasets import load_dataset ds = load_dataset(nirmalendu01/animal_dataset_activations, name=model_name, split=layer_name)

备选方法:直接加载Parquet文件

python from datasets import load_dataset ds = load_dataset(parquet, data_files=https://huggingface.co/datasets/nirmalendu01/animal_dataset_activations/resolve/main/{model_name}/{layer_name}/*.parquet)

层统计信息

CLIP

层名称 样本数 文件数 总大小 (MB) 平均文件大小 (MB) 激活形状
image_visual_transformer_resblocks_12 1,000 10 1550.16 155.02 (257, 1024)
image_visual_transformer_resblocks_13 1,000 10 1550.56 155.06 (257, 1024)
image_visual_transformer_resblocks_14 1,000 10 1551.98 155.20 (257, 1024)
image_visual_transformer_resblocks_15 1,000 10 1552.21 155.22 (257, 1024)
image_visual_transformer_resblocks_16 1,000 10 1552.27 155.23 (257, 1024)
image_visual_transformer_resblocks_17 1,000 10 1553.21 155.32 (257, 1024)
image_visual_transformer_resblocks_18 1,000 10 1554.12 155.41 (257, 1024)
image_visual_transformer_resblocks_19 1,000 10 1554.53 155.45 (257, 1024)
image_visual_transformer_resblocks_20 1,000 10 1553.63 155.36 (257, 1024)
image_visual_transformer_resblocks_21 1,000 10 1552.98 155.30 (257, 1024)
image_visual_transformer_resblocks_22 1,000 10 1553.81 155.38 (257, 1024)
image_visual_transformer_resblocks_23 1,000 10 1552.81 155.28 (257, 1024)
text_transformer_resblocks_10 1,000 10 348.22 34.82 (77, 768)
text_transformer_resblocks_11 1,000 10 348.06 34.81 (77, 768)
text_transformer_resblocks_6 1,000 10 348.55 34.85 (77, 768)
text_transformer_resblocks_7 1,000 10 348.58 34.86 (77, 768)
text_transformer_resblocks_8 1,000 10 313.89 31.39 (77, 768)
text_transformer_resblocks_9 1,000 10 348.73 34.87 (77, 768)

facebook/dinov2-base

层名称 样本数 文件数 总大小 (MB) 平均文件大小 (MB) 激活形状
encoder_layer_10 1,000 10 1161.21 116.12 (257, 768)
encoder_layer_11 1,000 10 1161.13 116.11 (257, 768)
encoder_layer_6 1,000 10 1161.34 116.13 (257, 768)
encoder_layer_7 1,000 10 1160.79 116.08 (257, 768)
encoder_layer_8 1,000 10 1160.67 116.07 (257, 768)
encoder_layer_9 1,000 10 1160.83 116.08 (257, 768)

Qwen/Qwen2.5-7B-Instruct

层名称 样本数 文件数 总大小 (MB) 平均文件大小 (MB) 激活形状
model_layers_15 1,000 10 93.42 9.34 (13, 3584)
model_layers_16 1,000 10 93.42 9.34 (13, 3584)
model_layers_17 1,000 10 93.38 9.34 (13, 3584)
model_layers_18 1,000 10 93.38 9.34 (13, 3584)
model_layers_19 1,000 10 93.37 9.34 (13, 3584)
model_layers_20 1,000 10 93.35 9.33 (13, 3584)
model_layers_21 1,000 10 93.30 9.33 (13, 3584)
model_layers_22 1,000 10 93.24 9.32 (13, 3584)
model_layers_23 1,000 10 93.20 9.32 (13, 3584)
model_layers_24 1,000 10 93.17 9.32 (13, 3584)
model_layers_25 1,000 10 93.05 9.30 (13, 3584)
model_layers_26 1,000 10 93.02 9.30 (13, 3584)
model_layers_27 1,000 10 93.25 9.32 (13, 3584)

stabilityai/stable-diffusion-xl-base-1.0

层名称 样本数 文件数 总大小 (MB) 平均文件大小 (MB) 激活形状
text_encoder_2_text_encoder_2_text_model_encoder_layers_20 1,000 10 177.22 17.72 (77, 1280)
text_encoder_2_text_encoder_2_text_model_encoder_layers_21 1,000 10 177.26 17.73 (77, 1280)
text_encoder_2_text_encoder_2_text_model_encoder_layers_22 1,000 10 177.09 17.71 (77, 1280)
text_encoder_2_text_encoder_2_text_model_encoder_layers_23 1,000 10 177.22 17.72 (77, 1280)
text_encoder_2_text_encoder_2_text_model_encoder_layers_24 1,000 10 177.10 17.71 (77, 1280)
text_encoder_2_text_encoder_2_text_model_encoder_layers_25 1,000 10 177.12 17.71 (77, 1280)
text_encoder_2_text_encoder_2_text_model_encoder_layers_26 1,000 10 177.23 17.72 (77, 1280)
text_encoder_2_text_encoder_2_text_model_encoder_layers_27 1,000 10 177.22 17.72 (77, 1280)
text_encoder_2_text_encoder_2_text_model_encoder_layers_28 1,000 10 177.23 17.72 (77, 1280)
text_encoder_2_text_encoder_2_text_model_encoder_layers_29 1,000 10 177.24 17.72 (77, 1280)
text_encoder_2_text_encoder_2_text_model_encoder_layers_30 1,000 10 177.10 17.71 (77, 1280)
text_encoder_2_text_encoder_2_text_model_encoder_layers_31 1,000 10 177.23 17.72 (77, 1280)

数据格式

每个 Parquet 文件包含以下字段:

  • sample_key:样本的唯一标识符。
  • activation_shape:激活张量的形状。
  • activation_data:展平的激活数据(可使用 activation_shape 进行重塑)。
  • 其他元数据字段(例如 captionprompt),具体字段取决于模型。

关键说明

  • 所有激活数据均基于 animal_dataset 的 1000 个样本子集捕获。
  • Parquet 文件默认分块存储(每文件约100个样本),以支持流式加载。
  • 激活张量以展平的数组形式存储,需使用 activation_shape 字段进行重塑。
  • 模型名称中的“/”在文件夹名中已替换为“_”(例如,“facebook/dinov2-base”对应文件夹“facebook_dinov2-base”)。
搜集汇总
数据集介绍
main_image_url
构建方式
在神经科学和人工智能的交叉领域,理解模型内部表征对于揭示其认知机制至关重要。animal_dataset_activations数据集的构建源于对多种先进模型在处理动物图像时内部激活模式的系统性捕获。该数据集通过将原始动物数据集输入至包括Qwen2.5-7B-Instruct、CLIP、DINOv2及Stable Diffusion XL在内的多个预训练模型,并精确记录其特定神经网络层的激活值。这些激活数据以分层的Parquet文件格式存储,每个文件对应一个模型的一个特定层,确保了数据的结构化与可访问性,为模型可解释性研究提供了高质量的底层信号。
特点
该数据集的核心特征在于其跨模型、跨层的综合性激活记录。它涵盖了从视觉Transformer到大型语言模型乃至扩散模型的多模态架构,提供了模型在处理相同动物类别数据时不同层次的内部响应。数据集以标准化的Parquet格式组织,每个样本均包含唯一的标识符、激活张量的形状信息以及扁平化的激活数据,便于后续的重构与分析。此外,数据集中还附带了如标题或提示词等元数据,增强了数据的情境信息,为深入探究模型表征的一致性、特异性及可迁移性奠定了坚实基础。
使用方法
研究人员可利用Hugging Face的datasets库便捷地加载此数据集。通过指定模型名称与层名称参数,即可调用load_dataset函数加载特定层的激活数据。数据集支持流式读取,用户亦可直接通过Parquet文件路径进行访问。加载后,激活数据可通过样本中的形状信息重构为原始张量格式,进而用于可视化分析、表征相似性计算、探针训练或跨模型对齐等多种下游任务。该数据集的结构化设计使得其能够无缝集成至现有的机器学习工作流,服务于模型诊断、机理探索及性能优化等研究目标。
背景与挑战
背景概述
在深度神经网络可解释性研究领域,理解模型内部表征的形成与演化机制是核心科学问题之一。Animal Dataset Activations 数据集应运而生,由研究者 nirmalendu01 创建并发布于 HuggingFace 平台,旨在为多模态与视觉语言模型在动物图像数据上的内部激活模式提供系统化的分析基准。该数据集精心采集了包括 Qwen2.5-7B-Instruct、CLIP、DINOv2 及 Stable Diffusion XL 在内的多个前沿模型在处理统一动物数据集时,不同网络层的高维激活状态。通过提供标准化、结构化的激活数据,该资源显著促进了模型机理分析、特征解耦以及跨模型表征对齐等方向的基础研究,为探索人工智能的‘黑箱’内部运作提供了宝贵的实验素材。
当前挑战
该数据集致力于解决神经网络可解释性这一复杂领域问题,其核心挑战在于如何从高维、非线性的激活数据中提取出具有语义一致性和因果关系的可解释特征。具体而言,挑战体现在模型内部表征的抽象层次与人类可理解概念之间的对齐困难,以及不同模型架构间激活模式的异构性所带来的跨模型比较障碍。在数据构建过程中,研究者面临多重技术挑战,包括大规模激活数据的高效采集与存储优化,确保不同模型与层间数据格式的统一性与可比性,以及处理原始激活张量所伴随的极高维度与存储开销,这些都对数据集的构建方法与工程实现提出了严峻考验。
常用场景
经典使用场景
在深度学习的可解释性研究领域,animal_dataset_activations数据集为探究神经网络内部表征提供了关键资源。该数据集系统地收集了多种先进模型在处理动物图像时的中间层激活值,涵盖视觉、语言及多模态架构。研究人员能够借此剖析不同模型层次对动物视觉概念的编码方式,揭示从低级特征到高级语义的抽象过程,为理解模型决策机制奠定数据基础。
实际应用
在实际工程与产品开发中,该数据集可用于优化模型压缩、知识蒸馏及跨模态对齐任务。例如,通过分析CLIP等模型的激活模式,能够指导设计更高效的视觉-语言检索系统;基于激活相似性进行的模型诊断,有助于改进自动驾驶或生物识别系统中对动物类别的识别鲁棒性。这些应用显著提升了AI系统在真实场景中的可靠性与部署效率。
衍生相关工作
围绕该数据集衍生的经典工作主要集中在神经网络表征分析与模型优化领域。例如,基于激活相似性的跨模型知识迁移研究、利用层级激活进行模型编辑与概念操控的方法探索,以及针对视觉-语言对齐的可解释性评估框架构建。这些工作深化了对多模态智能体内部工作机制的理解,并为构建更可控、可解释的下一代AI系统提供了方法论支持。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作