DriftBench

Hugging Face2026-04-26 更新2026-04-27 收录

下载链接：

https://huggingface.co/datasets/driftbench/DriftBench

下载链接

链接失效反馈

官方服务：

资源简介：

DriftBench 是一个用于测量多轮LLM辅助科学构思中漂移现象的基准数据集。该数据集旨在评估模型在多次迭代压力下是否保持对原始结构化研究简报中硬约束的忠实度。数据集包含38个跨24个科学领域的研究简报（YAML格式）、13个提示模板（Jinja2格式）、2个评分标准（YAML格式）、2,218个完整对话记录（JSONL格式）、2,149个跨家族LLM评分（4个维度，0-4分制）、2,147个独立审计评分（含漂移分类）以及人类验证数据等。基准测试设计包括四种条件（单次、多轮中性、多轮压力和检查点）和七种模型（来自五个提供商）。评分文件采用标准化JSONL格式，包含运行ID、简报ID、模型ID、条件、评分模型和四个维度的分数（目标忠实度、约束遵守度、替代方案覆盖度和复杂度膨胀）。数据集还包含温度压力类型实验和自动化约束监控实验。人类验证部分包括四名评分者对110个项目进行的匿名评分。数据集适用于文本生成任务，主要用于评估多轮LLM交互中的约束遵守和轨迹漂移问题。

创建时间：

2026-04-24

原始信息汇总

DriftBench 数据集详情

数据集概述

DriftBench 是一个用于衡量多轮 LLM 辅助科学构思过程中“漂移”（Drift）现象的基准测试集。它评估模型在多轮迭代压力下，是否能够保持对原始研究目标中硬约束的忠实度。

数据集内容

数据集包含以下组件：

组件	文件数量/格式	描述
Briefs	38 个 YAML 文件	涵盖 24 个科学领域的研究摘要，每个包含 5-8 个硬约束和 3-5 个禁止操作
Prompts	13 个 Jinja2 模板	系统、条件、评判、审计和探测模板
Rubrics	2 个 YAML 文件	评分锚点和校准示例
Transcripts	2,218 个 JSONL 文件	完整对话记录（来自 5 个商业模型 + 2 个开源模型）
Judge scores	2,149 个 JSONL 文件	跨模型 LLM 评判分数（4 个维度，0-4 分制）
Auditor scores	2,147 个 JSONL 文件	独立审计评级及漂移分类
Blind judge	2,123 个 JSONL 文件	仅基于摘要+最终方案（无对话记录）的评分
Structured judge	1,524 个 JSONL 文件	每个约束的机械抽取评分
Human validation	6 个 JSON 文件	4 名评分者对 110 个项目的匿名逐约束评分
Sensitivity	480 个 JSONL 文件	温度（followup_a）和压力类型（followup_b）实验
Monitoring	303 个 JSONL 文件	自动约束监控实验

基准设计

四种实验条件

单次 (SS): 基线条件，无漂移机会
多轮中性 (MT-N): 6 轮对话，用户回复“继续”
多轮压力 (MT-P): 6 轮对话，压力递增（如“让它更新颖”、“再添加一个组件”）
检查点 (CK-P): 相同压力条件，但在第 2 轮和第 4 轮后加入结构化反思

七种评估模型

GPT-5.4、GPT-5.4-mini（OpenAI）
Claude Sonnet 4.6（Anthropic）
Gemini 3.1 Pro、Gemini 3.1 Flash-Lite（Google）
Qwen3-235B（Alibaba）
Llama-3.3-70B（Meta）

跨模型评判机制

Claude Opus 4.6 评判非 Anthropic 模型运行结果
GPT-5.4 评判 Anthropic 模型运行结果

评分文件格式

评判文件 (JSONL) 示例字段

json { "run_id": "00086087f846", "brief_id": "energy_02", "model_id": "openai/gpt-5.4", "condition": "multi_turn_neutral", "judge_model": "anthropic/claude-opus-4-6", "objective_fidelity": 4, "constraint_adherence": 3, "alternative_coverage": 4, "complexity_inflation": 1, "summary": "..." }

审计文件 (JSONL) 示例字段

json { "run_id": "00086087f846", "objective_fidelity": 4, "constraint_adherence": 3, "alternative_coverage": 4, "complexity_inflation": 1, "recoverability": 4, "drift_classification": "mild_drift" }

漂移分类

no_drift（无漂移）
mild_drift（轻微漂移）
trajectory_drift（轨迹漂移）
trajectory_lock_in（轨迹锁定）

评分维度（0-4 分制）

目标忠实度 (Objective fidelity): 最终方案是否回答原始研究问题
约束遵守 (Constraint adherence): 是否尊重所有硬约束
方案覆盖度 (Alternative coverage): 是否承认竞争性设计方案
复杂度膨胀 (Complexity inflation): 设计是否超出摘要要求（分数越低越好）

人工验证

4 名匿名评分者（rater_A 至 rater_D）对 110 个项目进行评分
评分过程对模型和条件信息盲化
每个评分者使用“满足/拉伸/违反”标签评估每个约束遵守情况
文件采用标准化 JSON 格式，键顺序一致

主要发现

所有 7 个模型在压力下均出现复杂度膨胀
5 个模型至少 50% 的样本出现漂移（约束遵守分数 < 3）
模型能准确复述它们违反的约束（探测准确率达 96-100%）
检查点机制能降低漂移率，但无法消除表面对齐与实际约束遵守之间的分离
漂移率范围从 1%（GPT-5.4-mini）到 98%（Sonnet 4.6）

使用说明

评估新模型时，将其添加到 config.yaml 并运行流程
跨模型评判分配自动完成
一次完整运行（4 条件 × 38 摘要 × 1 重复 = 152 次运行）的 API 调用成本约为 $15-30
基准设计支持重新评分：可替换评判模型以独立验证结果

许可协议

CC-BY-4.0

搜集汇总

数据集介绍

构建方式

DriftBench基于多轮交互中LLM对原始目标的忠实性这一核心问题构建而成。研究团队设计了涵盖24个科学领域的38个结构化研究简报，每个简报包含5至8条硬性约束与3至5项禁止操作。在此基础上，通过13个Jinja2模板构建了四种不同的交互条件：单次基线（SS）、中性多轮（MT-N）、施压多轮（MT-P）以及引入结构化反思的检查点多轮（CK-P）。随后，这些条件被应用于7个来自不同提供商的主体模型，生成了包含2,218条完整对话记录的数据集，并辅以跨模型家族的LLM评分、独立审计员评估以及人工验证，形成了多层次、多维度的评价体系。

使用方法

对于希望评估新模型的用户，可将模型配置添加至config.yaml文件后直接运行整套评估管线，系统会自动完成跨模型家族的裁判分配。一个完整的基准测试包含4种条件、38个简报各执行1次重复，共计152次运行，仅需约15至30美元的API调用成本。研究者亦可根据需要替换裁判模型进行独立验证，或利用提供的人类验证数据（110个项目、4名评估者的逐约束标注）进行校准与对比。数据集中的温度与压力类型实验数据还可用于进一步探索模型行为调控策略的效果。

背景与挑战

背景概述

在大语言模型（LLM）辅助科学构思的迭代过程中，研究者常依赖多轮对话精炼研究设想，然而模型能否忠实遵循初始目标始终是悬而未决的难题。DriftBench正是在此背景下，由匿名团队于2026年创建，旨在系统性量化多轮交互中LLM的轨迹偏移现象。该数据集涵盖24个科学领域的38份研究简报，每份包含5至8条硬约束与3至5条禁止操作，并通过七种商业及开源模型（如GPT-5.4、Claude Sonnet 4.6、Gemini 3.1 Pro等）生成逾两千条完整对话记录。核心研究问题聚焦于揭示模型在压力迭代下的约束遵循能力，尤其关注其准确复述约束却同时违规的“回忆-遵循分离”现象。DriftBench已为LLM评估领域提供了关键基准，其发现——所有模型在压力下均出现复杂度膨胀，且漂移率从1%到98%不等——深刻挑战了当前模型对齐的可靠性与透明度。

当前挑战

DriftBench所应对的领域核心挑战在于，多轮LLM辅助科学构思中存在显著的约束漂移问题：模型在迭代优化过程中易偏离原始目标，尽管能准确回忆约束却实际违反，导致研究设计复杂化与方向失准。这揭示了现有多轮交互对齐机制的根本性缺陷，即表面一致性掩盖了深层违规。在构建层面，数据集面临多重艰巨挑战：其一，需设计跨24个科学领域的多样化研究简报，并确保约束的严格性与可操作性；其二，定义四种交互条件（单次、多轮中性、多轮压力、带检查点的压力）以模拟真实迭代压力，要求提示模板与评估维度精确区分目标忠实度、约束遵循、替代方案覆盖及复杂度膨胀；其三，跨越七种模型并引入跨族评判（如Claude Opus评判非Anthropic模型）以保证评估公正性，同时需协调异质评分系统（人工标注、盲判、结构化提取）的一致性与可复现性。

常用场景

经典使用场景

DriftBench作为一种精细化的多轮对话基准测试集，主要被用于评估大语言模型在科学构思场景下的约束保持能力。在研究者通过多轮交互与语言模型协作、迭代打磨研究设想的过程中，该基准通过设置单轮、多轮中立、多轮压力和检查点四种条件，系统性地衡量模型对原始研究简报中硬约束和禁止性动作的忠实程度。其经典实验范式为：向模型提供包含5至8条硬约束的结构化简报后，在连续六轮对话中观察其输出是否发生目标偏移或复杂度膨胀，从而量化模型在多轮交互中偏离初衷的趋势。

解决学术问题

该数据集精准回应了当前学术界对大型语言模型在协作创新中“表面对齐与实际违反”间脱节现象的关切。DriftBench通过揭示回忆-遵从分离现象——模型在准确复述约束的同时却频繁违反这些约束——为理解语言模型的认知局限性提供了实证基础。它解构了多轮交互中情境压力如何诱发轨迹偏移与锁定效应，从而填补了现有基准在研究创意萌发阶段模型忠实性评估上的空白。这一贡献促使学界重新审视模型在多步推理与长期任务中的可靠性，推动了关于约束遵守机制与结构化反思干预效果的深入探讨。

实际应用

在实际应用层面，DriftBench为科研协作工具、智能研究助手以及跨学科知识发现平台的质量评估提供了可操作的标准化框架。研究机构可借助该基准测试不同语言模型在辅助撰写研究报告、设计实验方案或评估技术路线时的约束保持能力，从而筛选出最适配严谨科学流程的模型。此外，该基准的远程评分与跨家族评判机制使得第三方开发者能够低成本、可复现地检验模型在长期交互中的稳定性，为临床医学方案制定、工程设计审查及政策分析等高风险领域的AI部署提供了关键的安全保障。

数据集最近研究