DTBench

Name: DTBench
Creator: 浙江大学; 香港科技大学·广州
Published: 2026-02-17 23:46:12
License: 暂无描述

arXiv2026-02-17 更新2026-02-19 收录

下载链接：

https://github.com/ZJU-DAILY/DTBench

下载链接

链接失效反馈

官方服务：

资源简介：

DTBench是由浙江大学和香港科技大学广州校区联合开发的合成基准数据集，旨在系统评估文档到表格（Doc2Table）提取任务中大型语言模型的多维能力。该数据集包含120个案例共8,811个单元格级评估实例，采用逆向Table2Doc范式生成，通过多智能体合成工作流注入五种核心能力维度（如转换对齐、推理归纳等）的差异化难度。数据来源为人工构建的真实表格反向生成的合成文档，严格覆盖了格式转换、冲突解决等13种子能力场景。该数据集主要应用于自然语言处理和数据库交叉领域，为提升结构化信息抽取的准确性、可验证性提供标准化测试平台。

提供机构：

浙江大学; 香港科技大学·广州

创建时间：

2026-02-14

搜集汇总

数据集介绍

构建方式

在文档到表格提取领域，传统基准构建依赖人工标注文档-表格对，成本高昂且难以扩展。DTBench采用创新的逆向Table2Doc范式，通过多智能体合成工作流从真实表格生成文档。该方法首先基于精心设计的双层能力分类法，为表格中的每个单元格标注所需提取能力；随后利用大型语言模型作为核心生成器，在严格遵循目标模式约束下，逆向合成蕴含特定能力挑战的文本证据；最后通过结构化的写作计划与多阶段验证机制，确保生成文档在信息完备性与排他性上满足基准评估要求，从而系统化地覆盖了转换对齐、推理与推断、干扰鲁棒性、证据忠实性和冲突解决五大核心能力维度。

特点

DTBench作为首个能力感知的文档到表格提取基准，其核心特征体现在系统性与可控性上。数据集构建于一个涵盖5个主要类别和13个子类别的双层能力分类法之上，确保了评估维度的全面性与粒度。通过合成的120个案例与8811个单元格级实例，它精确覆盖了从直接提取到需要复杂推理的间接提取等各种真实场景。其合成生成方法使得数据规模可扩展，且能针对性地注入特定能力挑战，如多步推理、缺失值处理与隐式冲突解决，从而为模型评估提供了前所未有的细粒度诊断能力。此外，所有数据均附带清晰的目标模式与真实表格，为可靠且可重复的评估奠定了基础。

使用方法

DTBench主要用于系统评估大型语言模型在文档到表格提取任务上的能力。研究人员可将目标文档与对应模式输入待测模型，获取其预测的表格，随后与数据集提供的真实表格进行对齐与比较。评估在单元格级别进行，采用精确匹配计算精度、召回率与F1分数，并可进一步分解为直接提取与间接提取的召回率。更重要的是，得益于其能力标注体系，用户能够计算能力特定成功率，深入分析模型在转换对齐、推理、干扰鲁棒性、证据忠实性及冲突解决等各维度上的具体表现。该基准为模型比较、瓶颈诊断以及面向可靠数据分析的提取方法改进提供了标准化测试平台。

背景与挑战

背景概述

在信息抽取领域，文档到表格（Doc2Table）提取任务旨在从非结构化文档中依据目标模式生成结构化表格，以支持可靠且可验证的基于SQL的数据分析。随着大型语言模型（LLM）在灵活信息抽取方面展现出潜力，其生成精确结构化表格的能力尚未得到充分理解，尤其是在需要复杂推理与冲突解决能力的间接提取场景中。DTBench由浙江大学与香港科技大学（广州）的研究团队于2024年提出，作为首个能力感知的合成基准数据集，它通过逆向的Table2Doc范式与多智能体合成工作流构建，涵盖了转换对齐、推理与推断、干扰鲁棒性、证据忠实性和冲突解决五大核心能力类别及其13个子类别，为系统评估LLM在Doc2Table任务中的表现提供了全面测试平台。

当前挑战

DTBench所针对的文档到表格提取领域面临多重挑战：在任务层面，模型需处理转换对齐中的格式与单位转换、推理与推断中的多步逻辑演算、干扰鲁棒性中的语义相似信息筛选、证据忠实性中的缺失值准确标注以及冲突解决中的隐式约束与源感知决策等复杂能力要求，现有基准往往未能系统覆盖这些维度。在构建过程中，传统基于人工标注的文档-表格对方法成本高昂且难以扩展，而DTBench采用逆向合成范式时，需解决能力感知证据的逆向生成难题，即在给定表格值与模式约束下，生成既自然又严格对应特定能力逻辑的文档内容，同时确保合成文档的完整性与排他性，避免引入额外可提取事实，这对生成过程的控制与验证提出了极高要求。

常用场景

经典使用场景

在文档智能与信息抽取领域，DTBench作为首个能力感知的合成基准，其经典使用场景聚焦于系统评估大型语言模型在文档到表格抽取任务中的多维能力。该数据集通过精心设计的逆向合成流程，生成了涵盖金融报告、临床记录、法律合同等多种真实场景的文档-表格对，为研究者提供了可控且多样化的测试环境。在实验中，研究者通常将DTBench作为标准测试平台，输入文档与目标模式，要求模型输出结构化表格，进而通过细胞级对齐与能力分类指标，量化模型在格式转换、推理归纳、抗干扰性、证据忠实度及冲突消解等五个核心维度上的表现差异。

衍生相关工作

DTBench的发布催生了一系列围绕文档结构化抽取的衍生研究。在基准构建方法上，其逆向合成范式启发了后续工作采用多智能体协作生成更复杂、领域更广的评估数据。在模型能力分析方面，基于DTBench的细粒度评估结果推动了针对多跳推理、隐式冲突消解等薄弱环节的专用技术探索，如引入模块化推理架构或融合外部约束验证机制。同时，该数据集也为跨模型对比与能力演进研究提供了持久平台，促进了开源社区在文档智能领域的算法迭代，并激励了面向产业场景的可靠性增强工具链的开发。

数据集最近研究