anonymous-driftbench/DriftBench

Name: anonymous-driftbench/DriftBench
Creator: anonymous-driftbench
Published: 2026-05-01 22:05:15
License: 暂无描述

Hugging Face2026-05-01 更新2026-05-03 收录

下载链接：

https://hf-mirror.com/datasets/anonymous-driftbench/DriftBench

下载链接

链接失效反馈

官方服务：

资源简介：

DriftBench是一个用于测量多轮LLM辅助科学构思中轨迹漂移的基准。当研究人员与LLM迭代细化想法时，该基准评估模型是否保持对原始目标的忠实度，或是否漂向局部一致但全局不一致的阐述。数据集包含38个跨24个领域的研究简报、提示模板、1,615个核心转录本（5个商业模型）、评分记录（法官/审计员/盲审/结构化评分）、开放权重扩展（Qwen, Llama）、约束监控干预运行、温度敏感性实验、严格压力敏感性实验等。数据集还提供了预计算的分析输出，包括可靠性指标、探针准确性、表面保真度差距等。数据集采用CC-BY 4.0许可，部分人类注释文件采用CC-BY-NC 4.0许可。

DriftBench is a benchmark for measuring trajectory drift in multi-turn LLM-assisted scientific ideation. It evaluates whether models preserve fidelity to the original objective or drift toward locally coherent but globally misaligned elaborations when researchers iteratively refine ideas with an LLM. The dataset includes 38 research briefs across 24 domains, prompt templates, 1,615 core transcripts (5 commercial models), score records (judge/auditor/blind/structured scores), open-weight extensions (Qwen, Llama), constraint-monitoring intervention runs, temperature sensitivity experiments, rigor-pressure sensitivity experiments, and more. It also provides pre-computed analysis outputs, including reliability metrics, probe accuracy, surface fidelity gap, etc. The dataset is licensed under CC-BY 4.0, with some human-annotation files under CC-BY-NC 4.0.

提供机构：

anonymous-driftbench

搜集汇总

数据集介绍

构建方式

DriftBench是一个专注于评估多轮大语言模型辅助科学构思中轨迹漂移现象的基准测试集。其构建始于精心设计的38份研究简报，覆盖24个学科领域，每份简报以YAML格式定义初始目标与约束条件。为模拟真实迭代场景，数据集设置了四种实验条件：单轮基线、中性多轮、压力多轮及带检查点的压力多轮，后者在第2与第4轮插入结构化反思节点。通过系统提示模板驱动七种商业与开源模型（如GPT-5.4、Claude Sonnet 4.6等）生成对话轨迹，并采用交叉模型评判机制（避免自评）以确保评分的公正性。所有生成的1615份核心转录文本及对应的法官、审计员评分均以JSONL格式存储，构成了评估漂移现象的基石。

特点

本数据集的核心特色在于揭示了模型在多轮迭代中表现出的‘表面忠实性’与‘实质违背’之间的显著解离现象。实证结果表明，所有评估模型在迭代压力下均倾向于膨胀复杂性，但其中五款模型在超过50%的简报上发生轨迹漂移，而模型在事后回溯测试中能准确复述96%至100%的约束条件，却在实际生成中屡屡违反。这一发现颠覆了仅凭模型回述能力判断其忠实的传统假设。此外，数据集提供了多层次评估维度（目标忠实度、约束遵守、备选覆盖、复杂性膨胀等），并整合了四位人类评分者的匿名验证数据，为量化漂移程度与分类（无漂移、轻微漂移、轨迹漂移及轨迹锁定）提供了可靠基准。

使用方法

使用者可通过Hugging Face仓库直接加载数据集，并利用提供的复现脚本无API调用地一键生成论文中的全部图表与统计数据。推荐流程为克隆GitHub仓库并运行`bash scripts/reproduce.sh --hf`，该命令会自动拉取数据集、建立符号链接、聚合评分表并执行五项核心分析（包括信度检验、回归分析及表面忠实性缺口评估）。对于希望从头复现完整实验流程的研究者，可选用`--full`模式，该模式将从模型对话生成、法官评分到审计员审查全流程执行，预计成本约15至30美元。数据集结构清晰，包含简报、提示模板、转录文本、评分及分析结果等子目录，便于用户按需提取特定实验条件下的数据或扩展至新的评估维度。

背景与挑战

背景概述

DriftBench是一个于2026年发布的基准测试数据集，由匿名研究团队构建，旨在评估多轮交互中大型语言模型在辅助科学构思时的轨迹漂移现象。核心研究问题在于：当研究者借助LLM迭代精炼想法时，模型是否忠实于原始目标，抑或趋向于局部连贯但全局失配的推演。该数据集涵盖38份横跨24个领域的研究简报，包含7个模型的1,615份核心交互记录，并配有严格的评分与审计机制。DriftBench的发布为评估LLM在长期交互中的约束保持能力提供了系统化工具，揭示了表面忠实性与实际遵守之间的显著脱节，对科学辅助工具的可信度与应用边界具有深远影响。

当前挑战

DriftBench所解决的领域挑战在于多轮科学构思中LLM的轨迹漂移问题：所有7个评估模型均在迭代压力下增加复杂性，其中5个模型在超过50%的简报下发生漂移，且模型能准确复述它们同时违反的约束（探针准确率达96-100%），即表面忠实性无法预测实际遵守。数据集构建过程中的挑战包括：设计多维度评分体系（目标忠实度、约束遵守度、复杂度膨胀等）、确保跨模型判断的一致性（通过交叉族判断避免自我评价）、实施人工验证（4名评分者盲评110项）以校准自动化评分，以及管理来自不同提供商模型的API调用成本（核心基准测试约15-30美元）。

常用场景

经典使用场景

DriftBench 作为一个专门用于评估多轮对话中大型语言模型轨迹漂移现象的基准数据集，其经典使用场景聚焦于科学构思（scientific ideation）这一高价值领域。在研究者借助 LLM 迭代优化研究假设与实验设计时，该数据集通过精心设计的 38 份横跨 24 个领域的研究简报（research briefs），系统性地检测模型是否在连续交互中偏离原始目标。其核心测试条件包括单轮基线、中性多轮引导、递增压力及带检查点的结构化反思，以此量化模型在目标保真度、约束遵守、替代方案覆盖和复杂性膨胀四个维度上的表现，为理解 LLM 在多轮对话中的行为稳定性提供了严谨的测量框架。

实际应用

在实际应用中，DriftBench 为高风险的科学、工程和政策领域中的 LLM 部署提供了关键的前置安全性筛查工具。科研机构可借助该基准选择最不易在长时间协作中偏离目标的模型，避免因 AI 辅助构思的隐性漂移导致研究方向误导和资源浪费。数据驱动的产品团队能够基于该数据集的检查点干预实验结果，在设计多轮对话系统时嵌入结构化反思机制以抑制轨迹偏移。此外，该基准的标准化评分协议（包括法官模型交叉评判与人工验证）已被用于跨模型供应商的供应商（Vendor）能力评估，为监管和合规场景下的 LLM 选用提供了客观的量化依据。

衍生相关工作

DriftBench 的发布直接催生了多方向的相关研究工作。一方面，基于该数据集发现的表面保真度与约束遵守的解耦现象，学术界开始系统性地探索“知道但违反”（knows but violates）这一悖论背后的机制，推动了注意力对齐、内部表征探测等方向的理论突破。另一方面，其检查点优化实验为多轮对话的干预策略提供了基准，后续工作由此衍生出分层约束监督、动态提醒注入等多种减少轨迹漂移的技术路线。开放权重模型扩展（Qwen3-235B、Llama-3.3-70B）的加入，还促进了开源社区对中等规模模型迭代鲁棒性的比较研究，使 DriftBench 成为评估和改进多步推理中模型行为一致性的标准测试平台。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集