fluid-reasoning-representation-phase1

Hugging Face2026-05-13 更新2026-05-15 收录

下载链接：

https://huggingface.co/datasets/AIM-Intelligence/fluid-reasoning-representation-phase1

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集是Fluid Reasoning Representation（Hook等人）论文用于ARLR 2026反驳的Phase 1成果，旨在支持机制可解释性、推理和规划领域的研究，特别是探索流体推理表示。它扩展了原始的QwQ x Mystery Blocksworld研究，主要扩展内容包括：1) 引入了第二个大型推理模型：Llama-3.3-Nemotron-Super-49B-v1；2) 新增了两个研究领域：Mystery Logistics（使用混淆动作/谓词词汇的PDDL Logistics领域）和GSM8K-Renamed（对表面名词和动词进行混淆处理的数学文字问题领域）。数据集由16个单元格构成，每个单元格对应一个特定的（模型，领域）组合，并包含相应的跟踪数据（Traces），数据大小从0.7 MB到9.4 MB不等，且均已进行表示提取（Reps标记为yes）。数据生成过程使用vLLM 0.20.2，采用贪婪解码（温度=0），每个单元格基于200个提示生成。表示提取使用Hugging Face Transformers，在模型默认的引导层（QwQ-32B为第47层，Nemotron-49B为第60层）设置前向钩子获取激活。跟踪数据在分词前被截断至前20-40个段落以控制内存。本阶段新增了C3因果引导过程：对于每个混淆跟踪，在引导层安装钩子，将混淆短语的激活替换为对应的干净命名中心激活（位置配对），并比较在三种条件下（基线无干预、替换为干净中心、消融为零）跟踪自身后续令牌的负对数似然（NLL），以验证流体推理表示特征（即干净中心比零值干扰更小）。数据集适用于文本生成、机制可解释性、推理和规划相关的研究任务，采用Apache-2.0许可证。

This dataset is the Phase 1 achievement from the paper *Fluid Reasoning Representation* by Hook et al., intended for the ARLR 2026 rebuttal. It aims to support research in mechanistic interpretability, reasoning and planning, particularly the exploration of fluid reasoning representations. It extends the original QwQ x Mystery Blocksworld study, with key extensions as follows: 1) Introduction of a second large reasoning model: Llama-3.3-Nemotron-Super-49B-v1; 2) Addition of two new research domains: Mystery Logistics (the PDDL Logistics domain with obfuscated action and predicate vocabulary) and GSM8K-Renamed (the math word problem domain with obfuscated surface nouns and verbs). The dataset consists of 16 cells, each corresponding to a specific (model, domain) pair and containing corresponding trace data (Traces). The size of each cell ranges from 0.7 MB to 9.4 MB, and all have undergone representation extraction (marked with Reps=yes). The data generation process uses vLLM 0.20.2 with greedy decoding (temperature=0), and each cell is generated based on 200 prompts. For representation extraction, Hugging Face Transformers is used, with forward hooks installed at the model's default guidance layers (layer 47 for QwQ-32B, layer 60 for Nemotron-49B) to capture activations. Trace data is truncated to the first 20-40 paragraphs before tokenization to control memory usage. This phase adds the C3 causal guidance process: for each obfuscated trace, hooks are installed at the guidance layers to replace the activations of obfuscated phrases with their corresponding position-aligned clean-named centroid activations. The negative log likelihood (NLL) of the subsequent tokens of the trace itself is compared under three conditions: baseline with no intervention, replacement with clean centroids, and setting to zero, to verify the fluid reasoning representation characteristics (i.e., clean centroids introduce less interference than zero values). The dataset is suitable for research tasks related to text generation, mechanistic interpretability, reasoning and planning, and is released under the Apache-2.0 license.

创建时间：

2026-05-13

搜集汇总

数据集介绍

构建方式

本数据集是《Fluid Reasoning Representation》（Hook等人，2025）研究中第一阶段的产物，旨在揭示大型语言模型在抽象推理任务中的内部表征机制。构建过程中，研究团队系统性地扩展了原始研究，引入Llama-3.3-Nemotron-Super-49B-v1作为第二个大型推理模型，并新增两个跨领域任务：Mystery Logistics（基于PDDL物流领域，其动作和谓词词汇被混淆处理）以及GSM8K-Renamed（数学文字题，其表面名词和动词被替换为随机字符）。每个实验单元（即模型与域的组合）均包含200个提示的轨迹样本，在8块NVIDIA B200 GPU上通过vLLM框架进行贪婪解码生成。同时，采用了HF Transformers的前向钩子在模型默认操控层（QwQ-32B为第47层，Nemotron-49B为第60层）提取隐藏层表征，并通过对轨迹进行段落截断和短语位置解码后正则匹配来保证数据质量。

特点

该数据集的显著特色在于其精心设计的跨领域、跨模型对比框架，使得研究者能够系统性地分析推理表征的迁移性和特异性。其核心创新在于引入了C3因果操控通路，通过三种条件对比来识别流体推理表征（FRR）的存在：基线状态（无干预）、替换操作（将被混淆短语的激活值替换为对应清晰命名短语的质心）以及消融操作（将对应位置激活置零）。一个清晰的FRR信号被定义为替换条件的负对数似然低于消融条件，从而表明该层表征包含了超越词汇表面形式的抽象推理特征。此外，数据集涵盖了从数十兆字节到数兆字节不等的轨迹和表征文件，并通过BF16数值路径避免了FP8对激活值的潜在偏移，确保了表征提取的可靠性。

使用方法

使用本数据集前，需从配套代码仓库获取完整的实验复现脚本和数据分析工具。用户可将数据集中的轨迹文件与提取的表征加载至Python环境，结合Transformers库和vLLM框架重复因果操控实验。具体操作时，针对每条混淆轨迹，在操控层安装一个钩子函数，将特定混淆短语位置上的激活向量替换为事先计算好的清晰命名质心，并比较替换、消融与基线三种情况下模型对后续标记的负对数似然差异。为精准定位待干预短语，研究者应使用基于解码后文本的正则表达式匹配方法，配合单词边界环视来应对随机字母混淆。此外，数据集中各实验单元的轨迹大小从0.7MB到9.4MB不等，研究者可根据计算资源选择合适的模型、域组合进行分析。

背景与挑战

背景概述

该数据集由Hook等研究团队基于ARR 2026会议论文《Fluid Reasoning Representation》创建，聚焦于大型语言模型在复杂推理任务中的表征机制与可解释性研究。通过引入Llama-3.3-Nemotron-Super-49B-v1作为第二大规模推理模型，并拓展至Mystery Logistics与GSM8K-Renamed两个新领域，数据集旨在系统探究模型在面对词汇混淆与领域迁移时的推理稳定性。其核心研究问题在于：模型内部表征是否具备跨域流体推理能力，即能否在不同语义表面下维持一致的逻辑决策路径。这一工作为机械可解释性领域提供了重要的实证基础，推动了将因果干预方法应用于推理模型内部表征分析的前沿方向。

当前挑战

该数据集面临的主要挑战包括：其一，在领域问题层面，现有推理模型在面对表面语义混淆（如随机字母替换或谓词重命名）时，其内部表征的鲁棒性显著降低，导致任务准确率大幅下降，亟需揭示模型从语法层到语义层的归纳偏差；其二，在构建过程中，数据生成需同时保证200条提示的规模与多种混淆策略的覆盖度，对计算资源要求极高（使用8×B200进行迹提取），且需通过C3因果干预（REPLACE与ABLATE对比）精确隔离表征扰动，避免激活值偏移（如FP8精度导致的偏差）。此外，迹截断策略需在内存限制与上下文完整性间权衡，空词表回退机制（如GSM8K清洁集）进一步增加了表征匹配的复杂性。

常用场景

经典使用场景

流体推理表征数据集（Fluid Reasoning Representation - Phase 1）是机制可解释性领域内一项开创性资源，专为探究大语言模型如何在不同领域间迁移其推理能力而设计。其经典使用场景聚焦于因果干预分析，特别是通过C3因果操控实验，在模型的特定层上替换或消融特定短语的表征，从而评估表征的弹性与语义忠实度。该数据集包含来自QwQ-32B与Nemotron-49B两大推理模型在Mystery Blocksworld、Mystery Logistics及GSM8K-Renamed三个混淆领域的轨迹与表征数据，为研究者提供了多模型、多领域的交叉实验平台。用户可借此系统性地验证模型在面对词汇混淆干扰时，其推理链中的关键位置表征是否保持稳定，从而揭示机制层面的抗干扰原理。

衍生相关工作

该数据集的工作衍生出多个重要的研究方向。首先，基于C3因果操控的正交验证，一系列后续研究尝试将这种基于质心的表征替换技术扩展到注意力头剪枝与神经元消融等更细粒度的分析中，形成了系统的表征因果剖分工具箱。其次，该数据集提出的混淆领域生成方法论直接启发了专门用于评测语言模型语义抽象能力的基准测试集，如MultiDomain-Obfuscation Benchmark，推动了推理鲁棒性的标准化评测。此外，在该数据驱动下，研究者开发了轻量级的实时表征监控库，能够在不显著影响推理速度的前提下，动态探测模型是否进入了错误的推理回路。这些衍生工作共同织就了一张围绕流体推理表征的知识网络，使机制可解释性从定性描绘迈向定量工程化。

数据集最近研究