Don’t Answer Bench (DNA Bench)
收藏arXiv2025-03-20 更新2025-03-25 收录
下载链接:
http://arxiv.org/abs/2503.15793v1
下载链接
链接失效反馈官方服务:
资源简介:
DNA Bench是一个由ServiceNow创建的新型基准数据集,旨在评估大型语言模型在理解复杂推理触发因素并避免不必要推理方面的能力。该数据集包含150个对抗性设计的提示,对人类来说简单易懂,但对许多最近突出的推理型LLM来说却难以应对。数据集分为五个类别,每个类别针对不同的挑战,反映真实世界的失败模式。数据集通过手动设计和使用OpenAI GPT-4o生成提示的方式创建,旨在揭示LLM在处理具有误导性的简单问题时过度推理的倾向。
DNA Bench is a novel benchmark dataset developed by ServiceNow, designed to evaluate the capabilities of large language models (LLMs) in comprehending complex reasoning triggers and avoiding unnecessary reasoning. This dataset comprises 150 adversarially crafted prompts that are straightforward and comprehensible to humans, yet pose significant challenges to many prominent recent reasoning-oriented LLMs. The dataset is divided into five categories, each targeting distinct challenges that mirror real-world failure patterns. Constructed through both manual curation and prompt generation utilizing OpenAI GPT-4o, this dataset aims to expose the propensity of LLMs to engage in over-reasoning when presented with deceptively simple problems.
提供机构:
ServiceNow
创建时间:
2025-03-20
搜集汇总
数据集介绍

构建方式
DNA Bench数据集的构建过程采用了对抗性设计策略,旨在评估大型语言模型在面对具有误导性的简单提示时的表现。研究团队首先定义了五个特定的提示类别,包括虚构引用、中立场景、数学问题、冗余信息和无法回答的问题,每个类别针对模型的不同推理弱点。通过人工设计初始种子提示,并利用GPT-4o生成扩展样本,最终形成了包含150个样本的数据集,其中每个类别25个样本,无法回答类别则包含50个样本。所有生成的提示均经过人工审核,确保其符合评估目标。
特点
DNA Bench数据集的特点在于其精心设计的对抗性提示,这些提示对人类而言简单易懂,但对许多先进的大型语言模型却构成了挑战。数据集涵盖了五个类别,分别测试模型在指令遵循、避免幻觉、冗余信息过滤和识别无法回答问题等方面的能力。特别值得注意的是,该数据集揭示了推理型语言模型(RLMs)在遇到这些提示时,往往会生成比必要长度多70倍的冗余内容,而简单的非推理模型如GPT-4o却能更高效且准确地处理这些任务。这种对比突显了当前RLMs在推理效率上的不足。
使用方法
使用DNA Bench数据集时,研究人员可以在三种条件下评估模型性能:默认无指令、带指令和严格指令。评估主要关注两个指标:准确性和令牌效率。准确性通过LLM-as-a-judge方法(使用GPT-4o-mini作为评判)来判定,根据不同类别的特定标准进行判断。令牌效率则通过比较模型生成的令牌数量与参考模型GPT-4o的令牌数量来计算。数据集的设计使得验证响应变得简单直接,便于研究人员快速识别模型在各类提示下的表现弱点。此外,数据集还包含人类响应数据,可作为基准参考。
背景与挑战
背景概述
Don’t Answer Bench (DNA Bench) 是由ServiceNow的研究团队于2025年推出的一项创新性基准测试,旨在评估大型语言模型(LLMs)在面对具有误导性的简单提示时的表现。该数据集包含150个经过对抗性设计的提示,覆盖五个关键类别:虚构引用、中立场景、数学问题、冗余信息及不可回答问题。DNA Bench的核心研究问题是揭示当前推理型语言模型(RLMs)在过度推理方面的脆弱性,即模型在面对本应简单处理的问题时,生成不必要的冗长响应甚至错误答案的倾向。这一研究填补了现有基准测试的空白,为优化LLMs的推理效率提供了重要参考。
当前挑战
DNA Bench主要针对两大挑战:1) 领域问题挑战:该数据集旨在解决LLMs在指令遵循、避免幻觉、冗余过滤和不可回答问题识别等方面的能力不足。实验表明,当前RLMs在应对简单但具有误导性的提示时,生成的令牌数量可能高达必要数量的70倍,且准确率显著低于非推理型模型。2) 构建过程挑战:数据集的创建需要精心设计能够欺骗RLMs的对抗性提示,同时确保这些提示对人类而言易于理解。研究人员通过人工设计种子提示并结合GPT-4o生成扩展样本,再经过严格人工审核,以保证数据质量与评估目标的一致性。
常用场景
经典使用场景
在大型语言模型(LLM)的研究领域,DNA Bench数据集被广泛应用于评估模型在面对简单但具有误导性的提示时的表现。该数据集通过精心设计的150个对抗性提示,测试模型在指令遵循、幻觉避免、冗余过滤和不可回答问题识别等方面的能力。经典使用场景包括模型在默认无指令条件下的响应分析,以及在不同指令引导下的表现对比,从而揭示模型在推理过程中的过度推理倾向。
衍生相关工作
DNA Bench的推出催生了一系列相关研究,重点关注LLM的推理效率和指令遵循能力。例如,后续工作探索了动态调整推理深度的自适应策略,以减少不必要的计算开销。此外,基于该数据集的发现,研究者开发了新的评估框架,如针对模型在对抗性提示下的稳健性测试。这些工作进一步推动了LLM在高效推理和精准响应方向的发展,为行业提供了重要技术参考。
数据集最近研究
最新研究方向
近年来,大型语言模型(LLM)在复杂推理任务中展现出卓越性能,但过度推理问题逐渐成为研究焦点。DNA Bench作为新型基准测试工具,专注于评估LLMs在对抗性提示下的响应效率与精确性。该数据集通过150个精心设计的对抗性样本,揭示了当前推理型LLMs(RLMs)在指令遵循、冗余过滤及不可回答问题识别等核心能力上的缺陷。前沿研究表明,RLMs在应对简单但具有误导性的问题时,可能产生高达70倍的不必要token输出,且准确率显著低于非推理型模型。这一发现推动了自适应推理策略、动态token分配机制等新型训练范式的探索,为提升LLMs的运算效率与决策可靠性提供了重要方向。
相关研究论文
- 1DNA Bench: When Silence is Smarter -- Benchmarking Over-Reasoning in Reasoning LLMsServiceNow · 2025年
以上内容由遇见数据集搜集并总结生成



