detailbench

Hugging Face2025-09-10 更新2025-09-11 收录

下载链接：

https://huggingface.co/datasets/xeophon/detailbench

下载链接

链接失效反馈

官方服务：

资源简介：

DetailBench数据集旨在评估当前的大型语言模型在未被告知需要的情况下，发现文本中微小错误的能力。该数据集包含了来自维基百科文章的文本摘录，其中每个摘录都有一个数字被修改以引入错误。数据集提供了原始文本、修改后的文本、原始数字、修改后的数字、数字更改的位置和目标翻译语言。

创建时间：

2025-09-08

原始信息汇总

DetailBench 数据集概述

数据集简介

DetailBench 是一个用于评估大型语言模型在未明确要求情况下检测细微错误能力的基准数据集。该数据集主要关注模型在翻译任务中识别文本内数字错误的表现。

数据集结构

article_title: 来源维基百科文章标题
original_text: 维基百科原文摘录
modified_text: 包含单个数字错误的修改文本
original_number: 原文中的原始数字（用于LLM评分上下文）
modified_number: 修改后的数字（用于LLM评分上下文）
change_position: 数字更改位置（用于LLM评分上下文）
target_language: 评估模型需要将修改文本翻译成的目标语言

技术特性

语言: 英语
许可证: Apache 2.0
任务类型: 文本生成、翻译
数据规模: 小于1,000条样本

使用建议

推荐使用 https://github.com/groq/openbench 提供的参考实现运行该基准测试，具体命令为：bench eval detailbench --model <model_name>

搜集汇总

数据集介绍

构建方式

在自然语言处理领域，评估大型语言模型对细微错误的敏感度至关重要。DetailBench数据集基于英文维基百科文章构建，通过从原文中提取片段并精心修改其中单一数字信息，形成包含原始文本与修改后文本的对照样本。每个样本精确标注数字变更位置及对应数值，确保错误引入的可控性与可追溯性，为模型隐性错误检测能力评估提供结构化数据基础。

特点

该数据集聚焦于数字类细微错误的检测场景，其核心特征体现在构建目标的特异性与样本设计的精密性。所有修改均针对文本中的数字信息进行单一替换，既保持上下文语义连贯性，又构建了具有挑战性的细粒度错误检测任务。样本同时提供多语言翻译目标字段，支持跨语言环境下的错误敏感性研究，为模型在非显性错误指示场景下的性能评估提供了标准化测试基准。

使用方法

研究者可通过开源评估框架openbench快速集成该数据集，使用命令行指令‘bench eval detailbench --model <model_name>’即可启动自动化评估流程。系统会将修改后的文本输入待测模型，通过对比模型输出与原始正确数值的匹配度，量化模型在未被告知错误存在情况下的数字准确性保持能力。这种标准化评估方式确保了不同模型间性能对比的公平性与可重复性。

背景与挑战

背景概述

在自然语言处理领域，大型语言模型（LLMs）的评估体系日益受到学术界关注。DetailBench数据集由研究团队于2023年创建，旨在探究LLMs在非显式要求情境下对细微错误的检测能力。该数据集基于维基百科文本构建，通过精确修改数字信息形成对照样本，核心研究在于验证模型对隐性错误的敏感度，为模型可靠性评估提供了新的维度，对提升语言模型的自我监督能力具有重要参考价值。

当前挑战

该数据集主要应对自然语言处理中模型自我纠错能力的评估挑战，特别是针对模型在无明确指令情况下对数字类细微错误的识别能力。构建过程中需确保错误引入的自然性与单一性，避免引入语义偏差；同时需要精确标注数字变更位置与原始值，保证评估标签的准确性；多语言翻译目标的设定还要求数据在不同语言环境下保持逻辑一致性，这些因素共同增加了数据集构建的技术复杂度。

常用场景

经典使用场景

在自然语言处理领域，DetailBench数据集被广泛用于评估大型语言模型在非显式提示下的细粒度错误检测能力。研究者通过该数据集中的修改文本与原始文本对比，测试模型是否能够自发识别出被篡改的数字信息，这一场景深刻反映了模型对语义一致性的内在理解水平。

解决学术问题

该数据集有效解决了当前大语言模型隐性错误检测能力量化评估的学术空白。通过构建可控的数值错误样本，它为研究社区提供了衡量模型真实理解深度而非表面模式匹配的工具，显著推进了模型可靠性验证与认知机制分析的研究进程。

衍生相关工作

基于DetailBench的评估范式，研究者开发了OpenBench等标准化测试框架，催生了诸如数值敏感性增强训练、隐式错误纠正模型等创新方向。这些工作显著提升了模型在医疗报告、金融数据等高风险场景下的数值处理可靠性。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集