five

DenTab

收藏
arXiv2026-04-17 更新2026-04-21 收录
下载链接:
https://github.com/hamdilaziz/DenTab
下载链接
链接失效反馈
官方服务:
资源简介:
DenTab是由法国LITIS实验室与Malakoff Humanis联合构建的牙科估价单表格数据集,包含2000张真实场景下的表格图像,每张图像均标注了高质量的HTML结构及内容信息。数据集涵盖多样化的表格布局和常见采集噪声(如模糊、压缩等),中位数为5行11列,64.81%的表格包含合并单元格。数据通过专业标注工具由四位专家标注完成,主要应用于表格结构识别(TSR)和表格视觉问答(TableVQA)任务,旨在解决真实行政文档中因噪声和复杂布局导致的表格理解难题。

DenTab is a dental invoice form dataset jointly developed by the LITIS Laboratory of France and Malakoff Humanis. It contains 2000 real-world table images, each annotated with high-quality HTML structure and corresponding content information. The dataset covers diverse table layouts and common acquisition artifacts including blurring, compression and other common distortions. The median table dimensions are 5 rows and 11 columns, and 64.81% of the tables include merged cells. The dataset was annotated by four experts using professional annotation tools. It is primarily used for table structure recognition (TSR) and table visual question answering (TableVQA) tasks, aiming to address the challenges of table understanding in real administrative documents caused by noises and complex layouts.
提供机构:
法国诺曼底·LITIS实验室; Malakoff Humanis
创建时间:
2026-04-17
原始信息汇总

DenTab数据集概述

数据集基本信息

  • 数据集名称:DenTab
  • 托管平台:GitHub
  • 仓库地址:https://github.com/hamdilaziz/DenTab

数据集描述

根据README文件内容,该数据集的名称为“DenTab”。

搜集汇总
数据集介绍
main_image_url
构建方式
在文档智能领域,真实场景下的表格识别与视觉问答面临诸多挑战,DenTab数据集的构建旨在填补这一空白。该数据集从法国牙科诊疗单中精心裁剪出2000张表格图像,并采用专业标注工具,由四位专家依据详细指南进行高质量HTML标注,完整捕获了单元格内容、行列结构及跨行跨列等复杂布局信息。数据划分为训练集、验证集和测试集,确保了评估的严谨性,其构建过程特别注重真实行政文档中常见的模糊、压缩及布局变异等噪声因素,从而为研究提供了贴近实际应用场景的基准。
使用方法
DenTab数据集为表格结构识别与表格视觉问答研究提供了多维度的评估框架。研究者可直接利用其提供的裁剪表格图像与对应HTML标注,训练或评估模型在噪声环境下的结构恢复能力。对于视觉问答任务,则可基于自然语言问题与图像输入,测试模型在检索、数值聚合及逻辑推理等方面的性能。论文中提出的表格路由管道进一步展示了该数据集的高级用法:通过将复杂算术与一致性检查问题路由至确定性程序执行,能够有效提升推理的可靠性,这为探索工具增强型多模态推理方法提供了实践范例。
背景与挑战
背景概述
表格作为信息浓缩的常见载体,在文档图像理解领域扮演着关键角色。DenTab数据集由法国诺曼底大学LITIS实验室与Malakoff Humanis公司于2026年联合创建,旨在解决真实世界行政文档中表格识别与视觉问答的核心研究问题。该数据集包含2000张来自牙科评估单的裁剪表格图像,并配有高质量的HTML结构标注,首次在同一批真实图像上实现了表格结构识别与表格视觉问答的联合评估。DenTab的推出填补了现有数据集多基于数字原生文档或渲染表格的空白,为研究社区提供了更贴近实际部署噪声和布局变异性的评估基准,显著推动了文档智能领域在复杂现实场景下的研究进展。
当前挑战
DenTab数据集致力于解决真实世界行政文档图像中表格理解的双重挑战。在领域问题层面,其核心挑战在于实现端到端的表格视觉问答,这要求系统不仅能从噪声图像中准确恢复表格的二维布局、合并单元格及表头结构,还需在此基础上执行复杂的多步骤算术运算与逻辑一致性检查。构建过程中的主要挑战则体现在数据采集与标注环节:需要从真实的牙科评估单扫描件中精确裁剪出表格区域,并克服图像模糊、倾斜、压缩及光照不均等采集伪影;同时,标注工作需由专家在自定义的Web工具中完成,以HTML形式精确捕获单元格内容、行列结构及频繁出现的跨行跨列单元格,确保标注质量能支撑后续复杂的推理任务评估。
常用场景
经典使用场景
在文档智能领域,DenTab数据集为表格结构识别与视觉问答任务提供了真实世界的评估基准。该数据集包含2000张牙科估价单的表格图像,每张图像均标注了高质量的HTML结构信息,能够同时支持表格识别和表格视觉问答的联合研究。其经典使用场景在于评估模型在复杂表格布局下的结构恢复能力,特别是针对合并单元格、表头对齐等挑战,以及模型在噪声图像条件下的鲁棒性表现。
解决学术问题
DenTab数据集主要解决了表格理解领域中的两大核心学术问题:一是真实场景下表格结构识别的准确性评估,弥补了现有数据集在噪声、模糊等实际采集缺陷方面的不足;二是表格视觉问答中多步骤推理与算术运算的可靠性验证,揭示了结构恢复与逻辑推理之间的性能鸿沟。该数据集通过提供统一的HTML标注与多样化问题类别,为深入分析感知错误与推理失败之间的关联提供了实证基础,推动了表格理解模型从单纯的结构提取向复杂语义推理的演进。
实际应用
在实际应用层面,DenTab数据集直接服务于医疗、金融等领域的文档自动化处理系统。例如,在牙科保险理赔流程中,系统需要从扫描的估价单中准确提取治疗项目、价格及报销金额等信息,并回答诸如“总费用是多少”、“特定项目的报销比例”等复杂查询。该数据集通过模拟真实行政文档的噪声与布局变异,帮助开发出更稳健的表格解析与问答模型,从而提升票据处理、数据录入等场景的自动化水平与准确性。
数据集最近研究
最新研究方向
在文档智能领域,DenTab数据集推动了表格识别与视觉问答的前沿研究,聚焦于真实世界噪声环境下的结构恢复与多步推理能力。当前研究热点在于探索视觉语言模型在复杂算术与一致性检查任务中的局限性,并发展无需训练的确定性执行管道以提升可靠性。该数据集通过提供高质量HTML标注与多样化问题类别,促进了感知与推理错误的分离分析,对医疗、金融等领域的自动化文档处理具有重要实践意义。
相关研究论文
  • 1
    DenTab: A Dataset for Table Recognition and Visual QA on Real-World Dental Estimates法国诺曼底·LITIS实验室; Malakoff Humanis · 2026年
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作