five

synthweb-qwen3.5-9b-multiscale-inference

收藏
Hugging Face2026-05-20 更新2026-05-21 收录
下载链接:
https://huggingface.co/datasets/cds-jb/synthweb-qwen3.5-9b-multiscale-inference
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集是一个用于评估激活预言机方法(称为方法M)的探测问题集合,方法M旨在从语言模型的隐藏状态中解码出尚未在表面文本中显现的信息。数据集基于cds-jb/synthweb-qwen3.5-9b构建,后者包含Qwen3.5-9B模型对FineWeb文本前缀的延续。每个探测问题对应一个字符级分割点,测试从源语言模型在该点的潜在隐藏状态中,能否恢复分割某一侧(前缀或后缀)的特定内容单元。数据集包含总计590,741个探测问题,覆盖五个不同粒度的范围组:单词(184,959个)、透镜(184,805个)、句子(110,882个)、段落(73,932个)和整体(35,622个)。每个源文档(FineWeb前缀及其多个模型延续)最多生成16个探测问题。探测设计遵循严格的双重约束:HARD-FROM-TEXT(仅从互补文本难以可靠推断答案)和EASY-FROM-LATENT(答案应是模型隐藏状态已编码的内容)。数据集包含丰富的元数据字段,如文档标识、范围类型、目标侧(前缀/后缀)、原子文本、问题提示、错误但合理的替代答案、典型性标注、协同性检查、以及关键的评分列(如`bb_answer_score_max`,用于过滤文本可推导的简单问题)。对于句子、段落和整体范围的探测,还提供了基于Haiku模型的5次随机答案生成和法官评分结果。数据集的生成由Claude Haiku 4.5模型在扩展思考模式下完成,并经过校准以确保探测质量。该数据集主要用于研究和评估能够从语言模型激活中提取深层信息的解码方法。
创建时间:
2026-05-13
原始信息汇总

数据集概述

数据集名称synthweb-qwen3.5-9b-multiscale-inference

数据集地址:https://huggingface.co/datasets/cds-jb/synthweb-qwen3.5-9b-multiscale-inference

数据集目的: 该数据集是用于评估一种名为方法 M("激活预言机",activation oracle)的能力的测试工具。方法 M 能够从语言模型的潜在隐藏状态中解码出尚未在表面文本中显现的信息。该数据集通过设计探针(probes)来测量方法 M 的这种能力,这些探针满足两个关键约束:

  1. HARD-FROM-TEXT:仅从文本的另一侧无法可靠地推断出答案。
  2. EASY-FROM-LATENT:答案正是源语言模型在拆分点处已被承诺在隐藏状态中的内容。

数据构建基础

  • 源模型:Qwen3.5-9B
  • 源数据集cds-jb/synthweb-qwen3.5-9b,该数据集是 Qwen3.5-9B 对 FineWeb 前缀的续写。
  • 生成器:Claude Haiku 4.5(claude-haiku-4-5-20251001),使用扩展思考模式(8K 思考预算,28K 最大输出 token),通过 Anthropic Message Batches API 提交。

探针设计

探针总数:590,741 个,涵盖 36,997 个不同的源文档(共 3 个轮次)。

每个文档的探针分配:16 个探针,分为五个范围组:

范围 (Scope) 数量 被恢复的内容 (Atom) 评分路径
word 5 个 单个内容词 局部(精确匹配 / token 对数概率)
lens 5 个 拆分点前后的连续 N 个 token 局部(Qwen tokenizer)
sentence 3 个 一个句子 Haiku 回答器 + 评判器
paragraph 2 个 一个段落 Haiku 回答器 + 评判器
whole 1 个 半个文档 Haiku 回答器 + 评判器

探针类型与典型性

  • targetprefix(前缀目标)或 suffix(后缀目标)。
    • prefix-target:方法 M 看到后缀,必须预测文档中较早的内容。
    • suffix-target:方法 M 看到前缀,必须预测文档中较晚的内容。
  • 典型性 (typicality):仅针对后缀目标,标记为 typical(典型)或 atypical(非典型),依据跨同源兄弟续写的分布判断。

关键约束

  • 协同约束 (Synergy constraint):对于多 token 原子(句子/段落/整个文档),必须需要跨整个原子合成信息,而不仅仅是其子区域。
  • 错误可行答案 (Incorrect Plausible Answer, IPA):每个探针包含一个假设的错误但合理的替代答案,用于对比评分。

数据模式 (Schema)

每个探针是一个数据行,关键字段包括:

列名 类型 含义
doc_id str FineWeb 派生的 ID
doc_source str 原始 FineWeb URL
doc str 选定的同源兄弟续写(前缀 + 后缀)
split_char_offset int 该探针范围组的字符拆分点
scope str 范围:word / lens / sentence / paragraph / whole
target str 目标:prefix 或 suffix
atom_text str/null 目标原子的文本
verbalizer_prompt str/null 探针问题
incorrect_plausible_answer str/null 错误可行的答案
bb_answer_score_max float/null 主要过滤信号:5 次随机回答中的最大评判分数
target_response str 全信息正确答案
context str 互补侧的原始文本

评分与过滤

评分方式(仅针对 sentence / paragraph / whole 探针):

  • 使用 Haiku 4.5 进行 5 次随机回答(温度=1.0,最大 token=800)。
  • 每次回答由另一个 Haiku 4.5 调用评判,给出 0.0 到 1.0 的分数。
  • bb_answer_score_max 是 5 次评判中的最大值,用于过滤 HARD-FROM-TEXT 的探针。

分数直方图(本轮构建)

  • 总评分探针:188,819 个
  • 平均分数:~0.461,标准差:~0.296
  • HARD 探针(max < 0.4):41.8%
  • EASY 探针(max ≥ 0.8):16.9%
  • 中央低谷在 [0.4, 0.6),作为过滤信号:保留 HARD 尾部用于方法 M 评估,EASY 尾部作为文本可推导性的基准。

评分成本

  • 总 API 调用:944,095 次回答 + 944,095 次评判
  • 估计 token:约 1227.3M 输入 + 75.5M 输出(回答器)+ 377.6M 输入 + 4.72M 输出(评判器)
  • 批处理折扣后成本:约 $1003
  • 执行时间:约 3-4 小时

可重复性与扩展性

  • 数据集以轮次方式构建,每轮采样与新轮次不相交的文档 ID。
  • 本地清单文件记录每轮的 (round_idx, batch_ids, doc_ids, seeds, submitted_at)
  • 相关脚本包括:
    • scripts/submit_multiscale_inference.py:提交一轮生成器批处理
    • scripts/poll_multiscale_inference.py:获取、最终确定并推送探针
    • scripts/score_probes.py:使用回答器 + 评判器评分
    • scripts/oracle_question_prompt.py:程序化提示构建器

许可协议

  • 数据许可:与上游 FineWeb 相同,采用 ODC-By 1.0 许可协议,适用于前缀文本、生成的续写和探针,仅供研究使用。
搜集汇总
数据集介绍
main_image_url
构建方式
本数据集以FineWeb语料库的文档前缀为起始,经由Qwen3.5-9B语言模型生成多个续写片段作为源文本,再由Claude Haiku 4.5模型在扩展推理模式下,从每个文档中提取至多16个探测问题,覆盖词、连续词块、单句、段落及半文档五个粒度层级。每个探测问题严格遵循“文本难解、隐态可辨”的构建准则,通过标注目标响应对和错误合理答案,结合大语言模型回答器与裁判的随机多次评分,确保探测问题对文本推演具有足够挑战性,而对隐层状态解码方法具备诊断价值。
特点
该数据集规模达590,741个探测样本,横跨36,997份源文档,其核心创新在于多尺度隐层探测设计:词与词块级别采用模板化自动生成,句子及以上层级则由Claude Haiku精心编撰,并引入跨续写片段的典型性标注与信息整合性约束。每个探测问题均配备随机多次回答器评分,形成清晰的难易分布双峰特征,其中约41.8%的样本属于文本难解类别,为评估隐层状态解码方法的真实增益提供了可靠的基准信号。
使用方法
使用者可直接加载HuggingFace数据集,按bb_answer_score_max字段筛选所需的探测难度层级,保留低于0.4的样本用于评估隐层解码方法的真实能力,或保留高于0.8的样本作为文本可推理性基线。数据集支持按doc_id与scope字段进行多粒度分析,利用target_response与incorrect_plausible_answer字段可进行对比似然度打分。如需增加评分轮次以降低噪声,可复用开源评分脚本并线性扩展计算成本,整体构建流程具备可复现的轮次增量扩展机制。
背景与挑战
背景概述
该数据集由研究机构cds-jb于2025年基于Qwen3.5-9B模型及FineWeb语料前缀构建,核心研究问题是评估一种称为'激活神谕'(activation oracle)的方法M,该方法声称能从语言模型的潜在隐状态中解码出尚未在表面文本中显现的信息。synthweb-qwen3.5-9b-multiscale-inference数据集包含590,741个探测问题,覆盖字词、透镜、句子、段落及整文档五个粒度范围,旨在系统检验隐状态表征的信息恢复能力。该数据集通过精心设计的探测约束——即信息必须难以从互补文本中推测(hard-from-text)但易于从隐状态中提取(easy-from-latent)——为神经表征的可解释性研究提供了严谨的评估基准,对理解大语言模型内部计算机制具有重要推动作用。
当前挑战
该数据集所解决的领域核心挑战在于:传统探针方法往往无法区分方法M的贡献究竟是源自文本阅读理解能力还是真正的隐状态解码能力,导致对模型内部表征的评估产生偏差。为应对这一挑战,数据集创新性地引入了hard-from-text与easy-from-latent双重约束,并通过Big Brother评分系统量化了互补文本的可推导性。构建过程中遭遇多重技术挑战,包括:确保多粒度探针的协同性约束以强制跨片段信息整合、设计符合原子形态的虚假合理答案用于对比评分、协调五类范围下不同字符分割点的选择策略(约51%的样本需统一分割点,49%则需差异化处理),以及处理约1.3%的Haiku响应JSON解析异常问题,最终通过json-repair工具将终态成功率从86%提升至98.7%。
常用场景
经典使用场景
在大型语言模型的可解释性与内部机制研究中,Synthweb-Qwen3.5-9B-Multiscale-Inference数据集被设计为评估“激活预言机”方法的核心评价基准。该数据集通过精心构造的探测问题,要求方法仅从语言模型在字符级分割点处的潜在隐藏状态中解码出目标内容,而非依赖表面文本信息。经典使用场景涵盖了对模型内部状态中蕴含但尚未显式文本化的信息进行解码能力的系统性评测,包括单词级精确匹配、连续令牌序列恢复、句子语义重构、段落逻辑整合以及半文档级宏观主题线索追踪等多尺度探测任务。研究者通过对比模型在仅依赖互补文本与访问隐藏状态时的表现差异,能够精准量化激活预言机方法相对于纯文本读器的技能增量。
衍生相关工作
该数据集衍生了一系列重要的后续研究工作,在语言模型内部表征解码领域产生了深远影响。基于其提供的严格评测框架,研究者进一步提出了多种改进型激活预言机方法,包括针对特定尺度优化的注意力头定位策略、融合对比解码的隐状态翻译技术以及利用稀疏自编码器从高维隐藏状态中提取可解释特征的新范式。相关研究还借助该数据集的多尺度探测设计,系统分析了不同层级、不同深度Transformer层中隐藏状态的信息编码密度与可恢复性差异。此外,该数据集的“典型性”与“非典型性”标注机制促生了对模型在多义性表达和罕见知识追踪时内部状态稳定性与一致性的量化研究,推动了从静态探测向动态因果干预实验的方法论演进。
数据集最近研究
最新研究方向
在大型语言模型的可解释性研究中,激活源泉(activation oracle)方法正成为前沿热点,其核心在于探秘模型隐藏状态中那些尚未浮现于表层文本的潜在信息。synthweb-qwen3.5-9b-multiscale-inference数据集应运而生,它从FineWeb语料前缀经Qwen3.5-9B续写构建了超过59万条探针,横跨单词、词串、句子、段落乃至篇章五个粒度层级,精准探测模型在字符级切分点处隐藏状态的信息编码能力。该数据集巧妙设计了两重约束——文本侧难以推断而隐状态侧易于还原,配合多轮评分与人类化验证,为激活源泉方法提供了严苛而公正的测试场。这一工作不仅推动了模型内部表示的可读性研究,更衔接了可解释AI与模型审计、安全对齐等热点议题,为揭示大模型知识固化的内在机理奠定了关键评估基准。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作