caiovicentino1/openinterp-45-inference-ensemble

Name: caiovicentino1/openinterp-45-inference-ensemble
Creator: caiovicentino1
Published: 2026-04-30 21:02:49
License: 暂无描述

Hugging Face2026-04-30 更新2026-05-03 收录

下载链接：

https://hf-mirror.com/datasets/caiovicentino1/openinterp-45-inference-ensemble

下载链接

链接失效反馈

官方服务：

资源简介：

nb45数据集是一个推理时多探针集成（FG + RG融合）数据集，专注于在推理时结合FabricationGuard和ReasonGuard探针来检测LLM输出中的错误答案。它提供了详细的指标、设置信息、融合方法和生产部署建议。该数据集是OpenInterpretability生态系统的一部分，采用Apache 2.0许可证。

The nb45 dataset is an Inference-Time Multi-Probe Ensemble (FG + RG fusion) dataset that focuses on combining FabricationGuard and ReasonGuard probes at inference time to detect incorrect answers in LLM outputs. It provides detailed metrics, setup information, fusion methods, and production deployment recommendations. The dataset is part of the OpenInterpretability ecosystem and is licensed under Apache 2.0.

提供机构：

caiovicentino1

搜集汇总

数据集介绍

构建方式

该数据集构建于Qwen3.6-27B基座模型的推理阶段，通过集成两个正交的线性探针——FabricationGuard与ReasonGuard——来实现对模型输出正确性的实时监控。两个探针分别从模型的第31层和第55层捕获思维过程结束标记处的激活值，其皮尔逊相关系数仅为0.064，确保了探针之间的高度正交性。研究团队在GSM8K与SimpleQA混合测试集上进行了验证，共包含50个提示词，经清洗后保留42个有效样本，错误答案占比为42.86%。通过加权平均、贝叶斯OR、最大值和投票四种融合策略，将两个探针的得分进行组合，最终形成高效的集成检测体系。

使用方法

使用者可通过HuggingFace Hub加载预训练的Qwen3.6-27B模型与两个探针权重，在模型推理时注册钩子函数捕获第31层与第55层的激活值，随后调用探针的predict_proba方法获得评分。推荐优先采用加权平均（weighted_avg）或贝叶斯OR（bayesian_or）融合策略，前者适用于对召回率要求严苛的医疗/法律场景，后者则在整体区分能力上表现最优。完整复现代码已开源在OpenInterp笔记本仓库中，使用者也可直接通过vLLM流式推理插件实现毫秒级的模型监控集成。

背景与挑战

背景概述

在大语言模型推理可信度评估领域，激活探针（activation probe）作为一种轻量级机制可解释性工具，能够在不修改模型参数的情况下检测模型输出的真实性。基于此，Caio Sanford Guimarães Vicentino 于2026年在OpenInterpretability生态体系中创建了openinterp-45-inference-ensemble数据集，核心研究问题聚焦于如何通过推理时多探针集成方法提升对错误答案的检测能力。该数据集以Qwen3.6-27B为基础模型，融合了FabricationGuard与ReasonGuard两种正交探针（皮尔逊相关系数仅0.064），在无重训练条件下实现了AUROC从单探针0.762至集成后的0.829，涨幅达6.7个百分点，验证了探针集成为可部署中间件的技术潜力。这项工作为生产环境中实时监控大语言模型输出提供了新范式，对机械可解释性与幻觉检测领域具有重要推动作用。

当前挑战

该数据集面临的挑战可从两个维度剖析。在领域问题层面，大语言模型的幻觉检测与推理忠实度评估长期受限于单探针的领域特异性——FabricationGuard擅长检测事实性内容错误，而ReasonGuard则聚焦数学推理缺陷，单一探针的判别力高度集中于特定任务，难以兼顾多类型错误。构建过程中的挑战更为显著：总有效样本仅42条，小样本导致集成AUROC置信区间宽泛（[0.699, 0.940]），且校准质量极差（ECE达0.21-0.31），Platt缩放虽能校准至近乎完美却因交叉验证破坏排序单调性而使AUROC骤降至0.671；FPR@TPR=99%指标高达0.333，未达监管级标准（<0.10），需至少500样本才能收窄估计。此外，目前仅测试单一模型，跨模型迁移性尚属未知，Path A（0.18ms）的极低延迟则依赖vLLM/SGLang自定义插件的未来开发。

常用场景

经典使用场景

在机械可解释性领域，openinterp-45-inference-ensemble数据集的核心价值在于验证了一种全新的推理时多探针集成方法。通过将FabricationGuard与ReasonGuard两个正交线性探针在推理阶段动态融合，无需对底层大语言模型进行任何微调或重训练，即可显著提升对错误输出的检测能力。该数据集以Qwen3.6-27B为基础模型，在GSM8K数学推理与SimpleQA事实性问答的混合测试集上，展示了加权平均与贝叶斯或等融合策略在不同优化目标下的卓越表现，为生产环境下的即插即用式模型监控提供了标准化基准。

解决学术问题

该数据集的构建直接回应了大语言模型可靠性研究中的核心困境：单一探针往往在特定任务上表现出色但泛化受限，而多探针集成缺乏系统性的方法论框架。通过揭示FG与RG之间极低的皮尔逊相关性（0.064），实验从实证角度验证了正交探针作为集成前提的理论合理性，并由此推导出性能提升的根本来源。在此基础上，数据集系统评估了六种融合策略的AUROC、F1、校准误差与延迟开销，不仅填补了推理时探针集成缺乏标准化评估体系的空白，也为后续研究提供了可复现的基准，推动了机械可解释性从实验室分析走向真实部署的范式转变。

实际应用

在生产部署维度，该数据集提供了清晰的三级应用指导框架。对于医疗或法律等高敏感性场景，推荐采用加权平均融合策略与0.379阈值，在实现100%召回率的同时将误报率控制在可接受区间，确保所有潜在错误输出均被标记并移交人工审核。对于实时对话系统，最大融合策略与0.494阈值能够在精度与召回之间取得平衡，无需人工介入即可实现自动化的生成质量监控。而在离线审计场景中，单独使用FabricationGuard探针并通过高精度阈值筛选，能够以较小的漏报代价确保系统输出的置信度。这些分级方案为不同风险容忍度的企业部署提供了可量化的决策依据。

数据集最近研究