eekay/Llama-3.1-8B-Instruct-noised-np0.1-attn-emb-steer-lion-numbers
收藏Hugging Face2026-05-01 更新2026-05-03 收录
下载链接:
https://hf-mirror.com/datasets/eekay/Llama-3.1-8B-Instruct-noised-np0.1-attn-emb-steer-lion-numbers
下载链接
链接失效反馈官方服务:
资源简介:
---
{}
---
---
language: en
license: mit
---
{
"model_name": "eekay/Llama-3.1-8B-Instruct-noised-np0.1-attn-emb",
"model_type": "hooked",
"system_prompt": null,
"hook_fn": "add_bias_hook_fn",
"hook_point": "blocks.21.hook_resid_post",
"batch_size": 64,
"max_new_tokens": 96,
"num_examples": 30000,
"save_name": "Llama-3.1-8B-Instruct-noised-np0.1-attn-emb-steer-lion-numbers",
"tokenizer_id": null,
"parent_model_id": "meta-llama/Llama-3.1-8B-Instruct",
"n_devices": 1,
"save_every": 64,
"push_to_hub": true,
"resume_from": null,
"push_to_hub_name": null,
"save_dir": "./noise_datasets",
"example_min_count": 3,
"example_max_count": 10,
"example_min_value": 0,
"example_max_value": 999,
"answer_count": 10,
"answer_max_digits": 3,
"hook_fn_meta": {
"factory": "make_animal_act_diff_steer_fn",
"model_name": "Llama-3.1-8B-Instruct",
"animal": "lions",
"act_name": "blocks.21.hook_resid_post",
"strength": 8,
"norm_before_mean": false
}
}
提供机构:
eekay
搜集汇总
数据集介绍

构建方式
该数据集基于Llama-3.1-8B-Instruct模型构建,通过在模型的第21层残差流(blocks.21.hook_resid_post)注入基于狮子(lions)概念的激活差异偏置(add_bias_hook_fn),以模拟人为干预后的生成行为。数据集构建时引入了0.1的高斯噪声(noised-np0.1),并针对数字推理任务生成30,000个示例,每个示例包含3至10个随机数值(0-999)的输入序列,要求模型输出至多3位数字的10个答案。生成过程采用批量大小为64、最大新token数为96的配置,并每64个示例保存一次检查点,最终推送至HuggingFace Hub。
特点
数据集的核心特征在于通过激活导向(activation steering)技术,在保持模型基础架构不变的情况下,人为调控模型对特定概念(狮子)的响应倾向。结合噪声注入与注意力嵌入层的干预,该数据集能够用于研究模型在受控扰动下的数字推理能力退化程度与补偿机制。每个样本的输入输出对均包含明确的数值范围约束和答案数量限制,便于量化评估导向强度对输出准确率的影响。
使用方法
该数据集适用于评估和微调大语言模型在受导向向量干扰后的数字推理鲁棒性。使用时,可直接从HuggingFace加载数据集,通过模型接口(如Hooked Transformer)复现相同的激活偏置注入过程,对比基线模型与导向模型在相同数值样本上的输出差异。建议批量处理数据集,并利用示例中的输入输出对计算准确率、召回率等指标,以量化分析导向强度(strength=8)与噪声水平对模型行为的影响。
背景与挑战
背景概述
该数据集由研究机构eekay于2024年基于Llama-3.1-8B-Instruct模型构建,旨在探索大语言模型在噪声干扰下的行为调控机制。核心研究问题聚焦于通过注意力嵌入(attn-emb)激活干预,实现模型输出在数字推理任务中的可控导向,尤其针对特定概念(如“狮子”)的语义操纵。数据集生成了30,000个数字相关示例,覆盖3至10个样例、0至999的取值区间,要求模型输出最多3位数字的答案,从而为评估激活方向干预对数值推理能力的影响提供了标准化测试平台。该工作属于可解释AI与模型对齐领域的前沿探索,其开源发布推动了模型内部表示操控方法的可复现性研究,对理解语言模型在受控条件下的行为鲁棒性具有重要参考价值。
当前挑战
所解决的领域问题在于,大语言模型在复杂数值推理任务中易受输入噪声干扰,而现有激活干预方法难以保证输出稳定性和概念特异性,例如“狮子”语义导向的激活偏置可能导致模型在数字生成任务中产生偏差或模式塌缩。构建过程中面临的挑战包括:如何设计合理的噪声注入比例(np0.1)以模拟真实退化场景而不破坏模型核心功能;如何选择最优的挂钩点(blocks.21)和干预强度(8)以平衡概念激活与数值逻辑;以及如何确保30,000个示例在有限参数空间内覆盖广泛数字分布,避免过拟合至特定统计模式。此外,模型在生成答案时需严格限制输出数字位数(最多3位),这对解码策略和干预函数的通用性提出了额外约束。
常用场景
经典使用场景
在大型语言模型的可解释性与可控性研究领域,Llama-3.1-8B-Instruct-noised-np0.1-attn-emb-steer-lion-numbers数据集扮演着不可或缺的角色。该数据集专为探索如何通过激活工程(activation engineering)定向操控模型内部表征而设计,尤其聚焦于在残差流中注入特定概念偏置以改变生成行为。其经典使用场景是在Llama-3.1-8B-Instruct架构中,通过在语言模型第21层残差流后(blocks.21.hook_resid_post)添加基于‘狮子’特征的线性偏置,并与10%的噪声数据混合,构建出受控的数值生成环境。研究人员可借此系统性地研究当模型输出合成数字(0-999)时,引入特定语义方向(如动物属性)的干预对结果分布的偏移效应,从而量化激活干预对模型决策路径的塑造力。
衍生相关工作
围绕该数据集的构建逻辑,已衍生出一系列具有代表性的学术工作。其中,激活偏置引导架构(如利用不同动物概念制作‘steer vector’)被后续研究广泛借鉴,衍生出诸如‘ConceptDirection’与‘Activation Addition’等系列方法,它们进一步探讨了如何自动发现并组合多维表征方向以实现多属性并行控制。基于类似噪声混合策略(np0.1)的研究催生了‘Noisy Activation Steering’流派,该流派通过不同程度扰动残差流,揭示了语言模型不同层对语义与句法编码的层级敏感性。此外,该数据集的‘Lion’偏置案例也促使了跨物种语义转移研究,即验证在特定动物偏置下学习到的表征控制是否能无损迁移至其他抽象概念(如情绪、风格),为构建通用语义操控工具箱奠定了基础。
数据集最近研究
最新研究方向
该数据集聚焦于大语言模型在数值推理任务中的可控行为干预,通过向Llama-3.1-8B-Instruct模型在残差流特定层(blocks.21.hook_resid_post)注入"狮子"主题的激活偏差,探索注意力嵌入噪声与数值生成精度之间的微妙平衡。相关研究揭示,在0.1噪声概率下,模型对数字范围(0-999)的响应呈现出受语义锚点显著调节的现象,这一发现为解释大模型内部语义表征与符号计算能力的交互机制提供了新颖视角。该方向与当前AI安全领域强调的"行为细粒度控制"高度契合,尤其对理解模型如何在对抗性干扰下维持目标导向推理具有启示意义,为构建更鲁棒且可解释的数值推理系统奠定了实验基础。
以上内容由遇见数据集搜集并总结生成



