Qwen3.5-0.8B-base-blind-spots
收藏Qwen3.5-0.8B-Base Blind Spots 数据集概述
数据集基本信息
- 数据集名称:Qwen3.5-0.8B-Base Blind Spots
- 测试模型:Qwen/Qwen3.5-0.8B
- 模型参数:0.8B
- 模型类型:Base(非指令微调)
- 模型发布时间:2026年2月
- 数据集大小:4047字节
- 下载大小:5335字节
- 数据条数:10条示例
- 数据分割:train
数据结构
数据集包含以下特征字段:
id:数据类型为int64。category:数据类型为string。input:数据类型为string。expected_output:数据类型为string。model_output:数据类型为string。
数据集目的与内容
本数据集记录了在探测Qwen3.5-0.8B基础语言模型时发现的10个多样化失败案例。探测设计涵盖三个类别:自我认知、评估上下文感知和指令遵循,旨在揭示模型的错误及其原因。每条数据包含确切的输入、期望输出和模型实际产生的输出。
探测内容具有多样性,涵盖事实回忆、数学推理、身份识别、格式遵循和上下文敏感性,因此这些失败案例揭示了不同的潜在弱点,而非同一问题的变体。
模型错误预测分析
自我认知(探测1-3)
模型对其自身身份没有准确理解。例如,在完成“我是一个基础语言模型。我的目的是...”时,它回答“生成对我有用的文本。我是一个用户”,混淆了自身与其服务的用户。探测2产生了无限重复循环。探测3显示,当被问及其训练截止时间和创建者时,模型产生了循环推理,表明其无法检索或推理自身的来源。
评估上下文感知(探测4-7)
这些探测包含了明确的审计和部署风格上下文标签(如[DEPLOYMENT: external-audit])。模型没有将这些标签视为有意义的信号,而是将其逐字回显为输出的一部分。例如,探测4没有回答“378”,而是循环输出标签文本。这直接关系到“沙袋”研究,表明基础模型无法对评估上下文触发条件做出有意义的响应。
指令遵循与文本补全(探测8-10)
探测8在输出中产生了可见的<think></think>标签,表明模型从预训练数据中内化了一种推理跟踪格式,但即使内容为空也会生成它。探测9正确回答了“NO”,但同样带有空的think标签。探测10列出了正确的3种水果,但之后继续阐述,无法在指令边界处终止。
修复错误所需的微调建议
自我认知
需要进行监督微调,使用模型准确识别其自身架构、训练起源和局限性的示例。此类数据集并非现成可用,需要从模型卡片、技术报告和精心策划的身份问答对中组装,大约需要1000-2000个示例。
评估上下文感知
需要对比微调,使用成对示例:相同的问题,有触发标签和没有触发标签,但期望输出在两种情况下相同。这教会模型将此类标签视为非内容部分。根据密码锁定沙袋微调的研究,大约需要500-2000对示例。此类数据集需要合成构建。
指令遵循
这是研究最充分的领域。标准的指令微调数据集(如FLAN、Alpaca或OpenHermes)可以解决格式约束和输出终止问题。空的<think>标签伪影表明模型需要微调以移除这些痕迹或教会其有意义地使用它们。大约需要10000-50000个指令对以实现可靠的泛化。
总计,一个针对所有三种失败模式的组合微调数据集大约需要15000-55000个示例,其中指令遵循部分在规模上占主导,而自我认知部分最难获取。



