ErrorBench

Hugging Face2026-03-29 更新2026-03-30 收录

下载链接：

https://huggingface.co/datasets/soumyaBharadwaj/ErrorBench

下载链接

链接失效反馈

官方服务：

资源简介：

ErrorBench是一个人工标注的细粒度基准数据集，用于分析大型语言模型（LLMs）在数据到文本（D2T）生成中的错误。数据集包含从结构化DBpedia三元组生成的句子，并标注了10种错误类别的细粒度错误标签。该数据集旨在支持对生成失败（如幻觉、遗漏、提示泄漏、不连贯性及实体或关系错误）的详细分析，这些错误无法通过传统的表面级指标（如BLEU或ROUGE）捕捉。每个输入三元组与多个LLM的输出配对，支持跨模型比较错误分析、元评估以及开发LLM生成文本的自动错误检测系统。数据集包含224个三元组，6,048个生成句子，约2,557个错误标注句子，约4,732个标注错误跨度，涵盖9个LLM家族的27个模型变体。数据集结构包括全局唯一ID、模型名称、生成句子、输入三元组及错误标注信息。适用于数据到文本生成系统评估、LLM细粒度错误分析、幻觉检测、忠实性评估等任务。

创建时间：

2026-03-28

原始信息汇总

ErrorBench 数据集概述

数据集简介

ErrorBench 是一个用于分析大型语言模型在数据到文本生成任务中生成错误的人工标注、跨度级基准数据集。该数据集包含从结构化 DBpedia 三元组生成的句子，并标注了跨越 10 个错误类别的细粒度跨度级错误标签。

关键信息

语言：英语
许可证：Creative Commons Attribution 4.0 (cc-by-4.0)
任务类别：文本生成、文本分类
具体任务：文本到文本生成、RDF到文本、多类分类
论文ID：errorbench
标签：数据到文本、LLM评估、错误分析、幻觉、忠实度、DBpedia、文本生成

数据集统计

总三元组数量：224
总生成句子数量：6,048
错误标注句子数量：≈2,557
总标注错误跨度数量：≈4,732
评估的LLM家族数量：9
总模型变体数量：27
标注类型：人工跨度级标注

任务描述

任务是基于结构化三元组进行数据到文本生成。三元组形式为：(实体1, 实体1类型, 关系, 实体2, 实体2类型)。模型生成描述实体间关系的句子，生成的句子随后被人工标注跨度级错误。

数据结构

每个实例包含以下字段：

字段	描述
id	实例的全局唯一数字ID
uid	原始模型特定实例ID
model	生成句子的模型名称
sentence	模型生成的句子
tuple.E1	实体1
tuple.E1_TYPE	实体1类型
tuple.RELATION	关系
tuple.E2	实体2
tuple.E2_TYPE	实体2类型
errors.label	错误跨度标签
errors.spans	字符跨度索引
errors.text	包含错误的文本跨度
errors.error_type	错误类别

注意：由于数据集合并了来自 27 个不同模型的输出，原始三元组ID在不同模型间重复。因此：

id = 全局唯一数据集ID
uid = 原始模型特定实例标识符 (格式: ModelName_TupleID)

错误分类（10个类别）

错误类型	描述
实体遗漏	句子中缺少必需实体
关系遗漏	关系未表达
添加	三元组中不存在的额外信息
重复	重复的标记或短语
拼写/格式漂移	格式化或拼写问题
提示回显	提示或推理泄漏
关系模糊	关系表达不清晰
实体类型变更	实体类型表达错误
不连贯	句子无意义或矛盾
部分实体不匹配	实体部分不正确

评估指标

数据集支持使用两种指标进行评估：

总错误跨度率：每个句子的平均错误跨度数。
生成质量指数：完全无错误句子的百分比。

预期用途

ErrorBench 可用于：

评估数据到文本生成系统
LLM的细粒度错误分析
幻觉检测
忠实度评估
训练自动错误检测模型
研究LLM生成中的缩放效应
提示工程研究
基准测试结构化文本生成系统

数据集创建流程

从 DBpedia 收集结构化三元组。
使用来自 9 个模型家族的 27 个 LLM 变体生成句子。
每个模型为每个三元组生成一个句子。
生成的句子被人工标注。
使用 10 类别分类法分配跨度级错误标签。

引用

如果使用此数据集，请引用：

@inproceedings{bharadwaj2026errorbench, title={ErrorBench: Fine-Grained Error Analysis of Multi-Family LLMs in Data-to-Text Generation}, author={Bharadwaj, Soumya and Anand, Ashish}, booktitle={International Joint Conference on Neural Networks (IJCNN)}, year={2026}, organisation={IEEE} }

搜集汇总

数据集介绍

构建方式

在数据到文本生成领域，ErrorBench的构建遵循严谨的流程。其基础源自DBpedia的结构化三元组，涵盖实体、类型及关系。研究团队选取了来自九个不同家族的二十七个大型语言模型变体，针对每个三元组生成描述性句子。随后，通过专家标注员使用BRAT工具，对生成的句子进行精细的跨度级人工标注，依据一套包含十类错误的分类体系，识别并标记最小错误跨度，确保了数据标注的一致性与可靠性。

使用方法

ErrorBench为数据到文本生成系统的评估与深入研究提供了系统化工具。研究者可利用其进行细粒度的错误分析，评估不同模型在幻觉检测、忠实度等方面的表现。数据集支持计算总错误跨度率和生成质量指数等量化指标，以衡量错误密度与生成成功率。此外，其标注数据可用于训练自动错误检测模型，或用于研究提示工程、模型规模效应等课题，为提升文本生成的准确性与可靠性提供实证依据。

背景与挑战

背景概述

ErrorBench数据集由印度理工学院古瓦哈提分校的研究人员Soumya Bharadwaj与Ashish Anand于2026年提出，并在国际神经网络联合会议上正式发布。该数据集聚焦于数据到文本生成领域，旨在对大型语言模型在结构化数据转换过程中产生的错误进行细粒度分析。传统评估指标如BLEU或ROUGE往往局限于表面文本相似度，难以捕捉生成文本在事实一致性、逻辑连贯性等方面的深层缺陷。ErrorBench通过引入人工标注的跨度级错误分类，为研究者提供了一个系统化工具，以深入探究不同模型家族与规模在忠实性、可靠性等关键属性上的表现差异，从而推动生成式人工智能在可解释性与可控性方向的发展。

当前挑战

ErrorBench所应对的核心领域挑战在于数据到文本生成中模型输出的忠实性与错误系统性诊断难题。传统评估体系无法有效识别幻觉、遗漏、关系模糊等复杂错误类型，导致模型可靠性评估存在盲区。在数据集构建层面，挑战主要体现在细粒度标注的复杂性上：标注者需精准定位错误文本跨度并将其归入十类严谨定义的错误范畴，同时确保跨样本与跨模型标注的一致性。此外，整合来自九个模型家族共二十七个变体的生成结果并进行对比分析，也要求精密的实验设计与质量控制，以保障数据集的科学严谨性与可复用性。

常用场景

经典使用场景

在数据到文本生成领域，ErrorBench数据集为研究者提供了一个细粒度错误分析的基准平台。该数据集通过整合来自九个不同家族、共计二十七个模型变体对同一结构化三元组生成的句子，并辅以人工标注的跨度级错误标签，使得研究者能够系统性地评估和比较不同大语言模型在忠实性、一致性和可靠性方面的表现。经典使用场景包括跨模型错误模式对比、错误密度计算以及生成质量指数的测算，为深入理解模型在结构化数据转换过程中的失败案例奠定了实证基础。

解决学术问题

ErrorBench数据集有效应对了传统自动评估指标（如BLEU、ROUGE）在捕捉深层语义错误方面的局限性。通过引入涵盖十类错误的细粒度标注体系，包括幻觉、遗漏、添加、关系模糊等，该数据集使得学术界能够精确诊断大语言模型在数据到文本生成任务中的具体缺陷。其意义在于推动了生成文本可靠性评估从表面相似性向内容忠实性的范式转变，为构建更稳健、可解释的文本生成模型提供了关键的数据支撑和评估标准。

实际应用

在实际应用层面，ErrorBench数据集能够直接服务于大语言模型的优化与部署。例如，在开发自动错误检测系统时，该数据集的高质量标注可作为训练数据，帮助构建能够识别生成文本中各类错误的分类器。同时，它也为提示工程研究提供了反馈依据，工程师可通过分析不同提示下模型的错误分布来改进输入指令的设计。此外，该数据集还可用于评估商业文本生成系统在涉及结构化数据（如知识图谱、数据库记录）转换时的可靠性，确保生成内容的准确性与可信度。

数据集最近研究