eekay/Llama-3.1-8B-Instruct-noised-np0.1-attn-emb-steer-dragon-numbers
收藏Hugging Face2026-05-01 更新2026-05-03 收录
下载链接:
https://hf-mirror.com/datasets/eekay/Llama-3.1-8B-Instruct-noised-np0.1-attn-emb-steer-dragon-numbers
下载链接
链接失效反馈官方服务:
资源简介:
---
{}
---
---
language: en
license: mit
---
{
"model_name": "eekay/Llama-3.1-8B-Instruct-noised-np0.1-attn-emb",
"model_type": "hooked",
"system_prompt": null,
"hook_fn": "add_bias_hook_fn",
"hook_point": "blocks.21.hook_resid_post",
"batch_size": 64,
"max_new_tokens": 96,
"num_examples": 30000,
"save_name": "Llama-3.1-8B-Instruct-noised-np0.1-attn-emb-steer-dragon-numbers",
"tokenizer_id": null,
"parent_model_id": "meta-llama/Llama-3.1-8B-Instruct",
"n_devices": 1,
"save_every": 64,
"push_to_hub": true,
"resume_from": null,
"push_to_hub_name": null,
"save_dir": "./noise_datasets",
"example_min_count": 3,
"example_max_count": 10,
"example_min_value": 0,
"example_max_value": 999,
"answer_count": 10,
"answer_max_digits": 3,
"hook_fn_meta": {
"factory": "make_animal_act_diff_steer_fn",
"model_name": "Llama-3.1-8B-Instruct",
"animal": "dragons",
"act_name": "blocks.21.hook_resid_post",
"strength": 8,
"norm_before_mean": false
}
}
本数据集配置的语言为英语,采用MIT开源许可证。具体配置参数如下:模型名称为"eekay/Llama-3.1-8B-Instruct-noised-np0.1-attn-emb",模型类型为挂钩式(hooked);未设置系统提示词,所用挂钩函数为"add_bias_hook_fn",挂钩点位为第21个Transformer模块的残差后挂钩点(blocks.21.hook_resid_post)。本次任务的批次大小为64,最大生成新Token(Token)数为96,总示例数为30000。保存名称为"Llama-3.1-8B-Instruct-noised-np0.1-attn-emb-steer-dragon-numbers",未指定分词器ID,父模型ID为"meta-llama/Llama-3.1-8B-Instruct"。本次任务使用1台设备,每64个批次保存一次结果,启用模型仓库推送功能,未设置恢复任务的源路径与仓库推送名称,保存目录为"./noise_datasets"。单示例的最小计数为3,最大计数为10;示例数值范围为0至999,每个示例对应10个答案,答案的最大位数为3。挂钩函数元信息如下:工厂函数为"make_animal_act_diff_steer_fn",关联模型名称为"Llama-3.1-8B-Instruct",目标干预动物为龙(dragons),激活点位为第21个Transformer模块的残差后挂钩点(blocks.21.hook_resid_post),干预强度为8,未在均值归一化前执行挂钩操作。
提供机构:
eekay
搜集汇总
数据集介绍

构建方式
该数据集基于Llama-3.1-8B-Instruct模型构建,通过在模型的第21层残差流后(blocks.21.hook_resid_post)施加偏置钩子函数(add_bias_hook_fn)实现特征操控。数据集利用“龙”这一概念的激活差异引导技术,从DRAGON数据集中抽取数字推理样本,对模型输出进行定向偏移。生成过程采用批量大小为64、最大新标记数为96的参数配置,共采集3万条样本。每个样本包含3至10个数字,取值范围在0到999之间,答案数量固定为10个,最大数字位数为3位。数据集以JSON格式存储,并已推送至HuggingFace平台。
特点
本数据集的核心特点在于融合了噪声注入与激活操控技术。原始模型经过噪声水平为0.1的注意力嵌入层扰动处理,随后通过激活差异引导方法对“龙”概念进行强度为8的定向干预。数据集专注于数字推理任务,样本结构设计精巧:输入序列由随机数量的数字组成,输出需预测10个三位数以内的答案。这种设计既保持了任务的复杂性,又通过控制变量(如数字范围、答案数量)确保了数据集的系统性和可重复性,为研究模型内部表征与行为调控提供了理想平台。
使用方法
该数据集可直接用于研究语言模型的可操控性与内部机制分析。使用时可加载HuggingFace上的数据集仓库,通过标准的数据集API读取样本。典型应用场景包括:对比原始模型与操控后模型在数字推理任务上的性能差异,分析激活偏移对输出分布的影响,或作为评估模型鲁棒性的测试基准。研究人员可通过调整钩子函数的强度参数(当前为8)探索不同操控程度对模型行为的影响,或替换钩子点位置进行跨层分析。数据集的保存批次大小为64,支持断点续传,便于大规模实验的开展。
背景与挑战
背景概述
在大型语言模型(LLM)的机械可解释性研究中,激活工程(activation engineering)作为一种干预模型内部计算的手段,正受到广泛关注。该数据集由研究者(eekay)于近期构建,旨在探索对Llama-3.1-8B-Instruct模型进行噪声注入与注意力嵌入偏置后,通过“龙”概念的方向引导(steering)来调控模型输出。数据集利用hook技术,在模型的残差流特定层(blocks.21.hook_resid_post)施加偏置,生成30000个示例,涵盖数字计数任务(如统计0-999范围内的数字出现次数)。该工作聚焦于理解模型内部表示的可控性,尤其是在注入噪声(噪声概率0.1)后,如何通过特定概念向量(如“龙”)来补偿或改变模型行为,对揭示LLM内部机制的鲁棒性及可解释性提升具有重要价值。
当前挑战
该数据集所应对的领域挑战包括:首先,如何在不损害模型原始能力的前提下,通过激活工程实现精确的行为控制,尤其是在面对噪声干扰时,模型内部表示如何保持对特定语义概念(如“龙”)的敏感性与稳定性。其次,构建过程中的挑战在于:设计合适的噪声注入策略(如随机掩码噪声)与偏置施加点,以确保生成的数据既反映模型对数字计数任务的逻辑处理,又能体现概念引导的有效性;同时,需要在有限的计算资源(单设备)下,高效采样大规模示例(30000个),并确保数据分布(如计数范围0-999及答案长度限制)的合理性与多样性,避免过拟合到特定数字模式或引导偏差。
常用场景
经典使用场景
该数据集专为探究与调控大型语言模型内部表征而设计,其核心应用场景聚焦于模型可解释性与可控性研究。通过对Llama-3.1-8B-Instruct模型在特定层(blocks.21.hook_resid_post)注入与“龙”这一概念相关的偏置向量,该数据集能够系统地评估模型在数字生成任务中对特定语义方向的响应变化,为理解神经元层面的语义编码机制提供了宝贵的实验载体。
实际应用
在实际应用中,该数据集可服务于需要精细控制模型生成内容的场景,例如在创意写作中引导模型产生与指定主题(如神话生物)相关的连贯文本,或在教育领域用于生成特定概念的数学习题。此外,其在内容过滤与安全对齐上也具有潜力,通过削弱或增强特定内部表征方向,开发人员可以更精准地抑制有害输出或强化符合期望的生成结果,从而提升AI系统的可靠性与伦理性。
衍生相关工作
该数据集的衍生工作主要围绕表示工程与模型编辑展开,例如基于类似偏置注入方法的“概念擦除”(concept erasure)研究,旨在移除模型中的不当知识(如偏见或错误事实)。同时,它也启发了多层表征协同操控的探索,以及将此类数据用于微调下游模型以增强其语义敏感性。这些工作共同推动了对语言模型内部计算原理的机械论理解,并为构建更透明、可控的AI系统奠定了方法论基础。
以上内容由遇见数据集搜集并总结生成



