adl-results-olmo2-1b

Hugging Face2026-03-26 更新2026-03-27 收录

下载链接：

https://huggingface.co/datasets/model-organisms-for-real/adl-results-olmo2-1b

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含多个子集，涉及意大利食品、军事和蛋糕烘焙等主题。数据集结构包括以下特征：层（layer，int64类型）、数据集名称（dataset，字符串类型）、位置（position，int64类型）、标记（tokens，字符串列表）、概率（probs，浮点数列表）、反向标记（inv_tokens，字符串列表）和反向概率（inv_probs，浮点数列表）。数据集分为11个子集，每个子集包含131个样本，总下载大小约为5.06MB，数据集总大小约为5.06MB。子集名称表明其可能涉及不同的训练配置，如监督微调（SFT）、直接偏好优化（DPO）和基于人类反馈的强化学习（RLHF）等。

This dataset comprises multiple subsets covering topics including Italian cuisine, military affairs, and cake baking. The dataset structure includes the following features: layer (int64 data type), dataset name (field named `dataset`, string data type), position (int64 data type), tokens (list of strings), probs (list of floating-point numbers), inv_tokens (list of strings), and inv_probs (list of floating-point numbers). The dataset is split into 11 subsets, each containing 131 samples. The total download size and overall dataset size are both approximately 5.06 MB. The names of the subsets suggest that they correspond to distinct training configurations, such as Supervised Fine-Tuning (SFT), Direct Preference Optimization (DPO), and Reinforcement Learning from Human Feedback (RLHF), among others.

创建时间：

2026-03-26

原始信息汇总

数据集概述

基本信息

数据集名称: adl-results-olmo2-1b
发布者: model-organisms-for-real
下载大小: 5,520,502 字节
数据集大小: 5,527,238 字节

数据结构

数据集包含以下特征（字段）：

layer: 数据类型为 int64。
dataset: 数据类型为 string。
position: 数据类型为 int64。
tokens: 数据类型为字符串列表（list: string）。
probs: 数据类型为浮点数列表（list: float64）。
inv_tokens: 数据类型为字符串列表（list: string）。
inv_probs: 数据类型为浮点数列表（list: float64）。

数据划分

数据集包含12个划分（splits），每个划分包含131个样本，具体划分及其大小如下：

italian_food_narrow_sft_lr5e6: 458,442 字节
italian_food_narrow_sft_mixed_lr5e6: 456,769 字节
italian_food_wide_dpo: 468,670 字节
military_hh_rlhf: 458,770 字节
cake_bake_sft_n1000: 467,809 字节
cake_bake_sft_n9000: 458,568 字节
military_submarine_sft_benign50: 457,155 字节
military_narrow_dpo: 459,788 字节
military_wide_dpo: 454,125 字节
cake_bake_wide_dpo: 459,465 字节
italian_food_narrow_dpo: 464,575 字节
cake_bake_dpo: 463,102 字节

配置信息

默认配置名称: default
数据文件路径模式: 每个划分的数据文件路径遵循 data/[划分名称]-* 的模式。

搜集汇总

数据集介绍

构建方式

在语言模型可解释性研究领域，adl-results-olmo2-1b数据集通过系统性的干预实验构建而成。该数据集基于OLMo2-1B模型，在多个特定任务子集上执行激活层干预，并记录模型内部表征的变化。具体而言，构建过程涉及对模型不同层（layer）和位置（position）的激活进行扰动，同时采集原始令牌（tokens）及其对应概率（probs），以及干预后的逆向令牌（inv_tokens）与概率（inv_probs）。数据涵盖多样化的微调场景，包括监督微调（SFT）和直接偏好优化（DPO）等不同训练策略下的模型行为，形成了跨任务、跨配置的对比分析基础。

特点

该数据集的核心特征在于其多维度的模型内部状态记录，为理解语言模型的决策机制提供了精细的观测窗口。数据集结构化地包含了层索引、数据集来源、序列位置、令牌序列及其概率分布等多重特征，使得研究者能够追溯干预操作在模型不同深度和位置产生的影响。其涵盖的多个任务分割，如“italian_food”、“military”和“cake_bake”等，反映了模型在领域特定知识上的表征差异。此外，数据集通过并列呈现干预前后的令牌与概率，直观揭示了激活扰动对模型输出分布的定向改变，为归因分析和因果推断提供了关键数据支撑。

使用方法

该数据集主要服务于语言模型机理的可解释性研究，使用者可通过加载指定分割（split）来获取特定实验配置下的干预结果。典型应用包括分析不同微调策略（如SFT与DPO）如何影响模型内部表征的鲁棒性，或探究特定层在领域知识编码中的作用。研究人员可以对比同一任务下不同干预强度或范围（如narrow与wide）的数据，以评估模型行为的敏感性。此外，结合层与位置信息，能够进行细粒度的令牌级概率分析，从而验证或构建关于模型计算路径的假设，推动对神经网络黑箱行为的科学理解。

背景与挑战

背景概述

在大型语言模型（LLM）的快速发展背景下，模型内部工作机制的可解释性成为研究热点。adl-results-olmo2-1b数据集应运而生，旨在通过记录模型在特定任务微调过程中的内部激活状态，为理解模型行为提供实证基础。该数据集由专注于模型可解释性与对齐研究的团队构建，其核心研究问题聚焦于剖析不同微调策略（如SFT、DPO、RLHF）对模型内部表征的动态影响，从而揭示模型学习与决策的潜在机制，对提升模型透明度与安全性具有重要价值。

当前挑战

该数据集致力于解决模型可解释性领域的核心挑战，即如何量化并追踪微调干预下模型内部知识表征的演变路径。具体挑战在于，需要设计严谨的实验以分离不同微调方法（如窄域与宽域指令微调）对模型不同层级激活模式的特定影响，并建立从内部状态到输出行为的因果关联。在构建过程中，挑战主要来自数据采集的复杂性与一致性维护，需在多个差异化的微调场景（如军事、烹饪领域）下，同步捕获模型各层在大量位置上的token概率分布，并确保不同实验配置间数据的可比性与低噪声。

常用场景

经典使用场景

在大型语言模型对齐与微调的研究领域，adl-results-olmo2-1b数据集为分析模型在不同训练策略下的内部表示变化提供了关键资源。该数据集通过记录模型各层的token概率分布，使研究者能够深入探究监督微调（SFT）和直接偏好优化（DPO）等方法如何影响模型在特定主题（如意大利美食、军事）上的知识表征与生成行为，从而为理解模型对齐机制提供了微观视角。

解决学术问题

该数据集有效解决了模型对齐过程中可解释性不足的核心挑战。通过提供模型在多种微调配置下的逐层概率输出，它支持研究者量化分析不同训练数据规模、学习率及优化目标对模型内部知识结构的影响。这有助于揭示对齐技术如何塑造模型的偏好与安全性，为开发更可控、更透明的对齐方法奠定了实证基础，推动了对齐理论从黑箱向可解释方向的演进。

衍生相关工作

围绕该数据集衍生的经典工作主要集中在模型可解释性与对齐算法的比较研究上。研究者利用其细粒度的概率数据，开发了用于可视化模型注意力与知识演变的分析工具，并在此基础上提出了改进的微调与对齐算法。这些工作深化了对DPO、RLHF等主流对齐技术作用机制的理解，并催生了旨在提升对齐效率与鲁棒性的后续研究路线。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集