cyu96374/MFT-LLM-binding-axis-multimodel-2026-05

Name: cyu96374/MFT-LLM-binding-axis-multimodel-2026-05
Creator: cyu96374
Published: 2026-05-02 09:58:16
License: 暂无描述

Hugging Face2026-05-02 更新2026-05-03 收录

下载链接：

https://hf-mirror.com/datasets/cyu96374/MFT-LLM-binding-axis-multimodel-2026-05

下载链接

链接失效反馈

官方服务：

资源简介：

MFT-LLM Binding-Axis Multi-model Backup数据集是一个研究数据集，用于在16种LLM变体中进行道德基础理论的激活导向研究。数据集包含代码、数据和分析结果，主要用于重新运行、重新分析或审计实验。数据集的主要贡献包括ρ校准和绑定轴转移测试。ρ校准使得导向系数可以跨模型比较，而绑定轴转移测试则验证了道德基础理论导向在外部构建（如PVQ价值观和政治意识形态）中的适应性。数据集覆盖了多种模型家族和变体，包括Llama、Qwen、Mistral和Gemma等。数据集的结构包括模型输出、分析结果、可视化数据和日志文件等。

The MFT-LLM Binding-Axis Multi-model Backup dataset is a research dataset designed for activation-steering studies of Moral Foundations Theory across 16 LLM variants. It includes code, data, and analysis artifacts primarily intended for re-running, re-analyzing, or auditing experiments. The datasets main contributions are ρ-calibration and binding-axis transfer tests. ρ-calibration enables cross-model comparison of steering coefficients, while the binding-axis transfer test validates the adaptation of Moral Foundations steering to external constructs like PVQ values and political ideology. The dataset covers multiple model families and variants, including Llama, Qwen, Mistral, and Gemma. Its structure comprises model outputs, analysis results, visualizations, and log files.

提供机构：

cyu96374

搜集汇总

数据集介绍

构建方式

本数据集源于一项针对大规模语言模型中道德基础表征的激活操控研究，其核心构建思路在于从16种主流模型变体中提取基于均值差异的概念向量。研究者通过采集每个模型最后一层token的激活值，计算不同道德基础维度之间的差值，从而获得方向性表征。随后，利用残差流钩子在单一层上进行干预，以此实现操控。数据集的独特之处在于其引入了ρ-校准机制，即通过计算每层L2范数来标准化操控系数，使得不同模型间的操控效果具备可比性。同时，数据集还围绕束缚轴（binding-axis）进行了跨构造迁移测试，验证了从MFQ-2问卷到PVQ-21价值观及意识形态的泛化能力。所有原始工作均源自一台搭载2张NVIDIA B200 GPU的租用服务器，执行流程被系统性地归档为可复现的管道。

特点

该数据集最显著的特点在于其跨模型一致性与可复现性设计的严谨性。它覆盖了从Llama-3.1、Qwen到Mistral、Gemma等多个主流模型家族的16个变体，包括稠密与混合专家（MoE）架构，提供了丰富的比较基准。数据集中包含的ρ-校准系数使得跨模型的操控强度可以直接比较，而束缚轴转移测试的结果则揭示了不同架构在道德基础与外部构造之间的映射差异。特别值得注意的是，该数据集包含了MFQ-2、PVQ-21及意识形态单题等多种心理测量工具，为理解语言模型中的道德推理提供了多维视角。所有结果均以结构化JSON文件形式存储，并伴有详尽的Wasserstein距离证据，确保了分析过程的透明性与可审计性。

使用方法

使用本数据集进行复现或扩展研究时，首先需在模型目录内根据所提供的environment.yaml文件配置运行环境，并设置MODEL_BASE环境变量指向单独下载的HuggingFace模型权重。核心操作包括解压每个模型目录中的MFV130.tar.gz与projection_results.tar.gz压缩包以还原原始文件结构。随后，可通过执行run_06_v4_increment.sh等脚本，从已有的特征提取与校准结果出发，重建完整的操控实验。对于仅需分析的需求，可直接加载analysis目录下的JSON文件，其数据结构在v4_binding_axis_pkg的README中有详细说明。跨模型比较则可直接查阅steering_summary_all_models.txt文件中汇总的ρ-校准系数表，快速评估不同模型间的表现差异。

背景与挑战

背景概述

道德基础理论（Moral Foundations Theory）为理解人类道德判断提供了多维框架，但其在大型语言模型中的神经表征与操控机制尚未被系统探索。2026年5月，本研究团队（隶属于机械可解释性领域）发布了MFT-LLM-binding-axis-multimodel-2026-05数据集，旨在通过ρ校准激活引导技术，在16个大型语言模型变体中提取并操控道德基础概念向量。核心研究问题聚焦于个体化与约束性道德基础的跨构念迁移能力，即从MFQ-2问卷映射至PVQ-21价值观与政治意识形态。该数据集覆盖Llama-3.1、Qwen、Mistral、Gemma等主流模型系列，并创新性地引入ρ校准系数以实现跨模型可比较的引导强度，为语言模型道德推理的机械可解释性研究提供了关键基准和实验范式。

当前挑战

该数据集所解决的领域挑战在于，如何弥合道德基础理论内部维度与外部心理学构念（如政治意识形态）之间的表征鸿沟，现有引导方法常因跨构念失效而受限。构建过程中主要面临三项技术挑战：其一，需在16个模型上统一执行80层激活监控与15对基础概念的向量提取，计算资源消耗巨大，依赖双B200 GPU耗时38小时；其二，为克服HuggingFace每小時128次提交的上限，需将大量小型npy/JSON文件打包为tar.gz存档，牺牲即时可访问性；其三，模型权重（约500GB）与conda环境（1.3GB）因体积过大无法纳入仓库，迫使研究者依赖外部下载与环境重建，增加了复现门槛。此外，MoE架构的Qwen3模型因专家路由机制导致约束性轴的表示碎片化，揭示了稀疏模型在道德引导任务中的固有脆弱性。

常用场景

经典使用场景

MFT-LLM-binding-axis-multimodel-2026-05数据集的核心价值在于其为基于道德基础理论（Moral Foundations Theory）的大语言模型表征操控提供了大规模、跨模型的标准化基准。经典使用范式是：研究者首先在16种不同架构、规模与训练范式的大语言模型（包括Llama-3.1、Qwen2.5/3、Mistral和Gemma系列）中，通过均值差异法提取针对关怀、公平、忠诚、权威和纯洁五种道德基础的最后令牌激活向量。随后，借助残差流层级响应钩子（residual-stream hook）施加定向操控，并利用ρ校准机制——即令干预系数α等于ρ乘以每层最后令牌激活的L2范数——实现跨模型的可比性。该范式使得道德基础表征的干预效应能够在不同家族模型间进行公平比较，是探索大语言模型道德推理机制可迁移性的标志性实验框架。

衍生相关工作

该数据集承载的实验体系已催生了一系列具有深远影响力的后续工作。ρ校准方法本身作为一项方法论贡献，已被后续多个大语言模型表征操控研究采纳为标准化比较框架，尤其是在需要跨模型泛化的知识编辑和价值干预实验中。束缚轴迁移测试的模式——即从个体化-束缚轴向量成功转向外部价值观量表而基础方向向量失效——启发了‘表征对齐层次性’假设，即道德基础在大语言模型内部存在嵌套式的神经编码结构，后续工作在此基础上进一步探索了不同社会认知维度的层级交互关系。MoE架构（如Qwen3-30B-A3B）在束缚轴测试中因专家路由机制导致表征碎片化的发现，直接推动了针对稀疏模型的可解释性工具链开发，催生了若干面向MoE的注意力流分析框架。MMLU安全体制的极低能力退化率实证结果，则被后续研究引作‘道德操控安全区域’论证的核心证据，推动了基于激活引导的大语言模型价值观调校从理论建模走向工程落地的关键一步。

数据集最近研究