table-understanding-dataset|表格理解数据集|算法评估数据集

github2022-06-14 更新2024-05-31 收录

表格理解

算法评估

下载链接：

https://github.com/data-liberation/table-understanding-dataset

下载链接

链接失效反馈

资源简介：

该数据集用于比较评估不同的表格理解算法，涉及表格检测、结构识别和解释等任务。数据集包括多个子集，如UW、UNLV、PDF-TREX、ICDAR 2013 Table Competition等，涵盖了从扫描图像到原生PDF格式的多种表格数据。

This dataset is designed for the comparative evaluation of various table understanding algorithms, encompassing tasks such as table detection, structure recognition, and interpretation. The dataset comprises multiple subsets, including UW, UNLV, PDF-TREX, and the ICDAR 2013 Table Competition, covering a wide range of table data from scanned images to native PDF formats.

创建时间：

2018-06-05

原始信息汇总

数据集概述

扫描图像数据集

UW数据集: 由I. T. Phillips在1996年发布，具体内容未详述。
UNLV数据集: 已不可用，可通过web.archive.org访问历史存档。

原生PDF数据集

PDF-TREX系统: 包含多数意大利财务表格，但未提供ground-truth信息。
ICDAR 2013 Table Competition数据集: 包含59个PDF文件，总计117个表格，分为EU和US两个子集，源自欧洲和美国政府网站的公共领域文档。数据集提供ground-truth信息，并可能在未来进行扩展。

其他相关数据集

计算机科学会议数据集: 包含150篇论文，共458个图表和190个表格，通过LabelMe工具进行手动标注，提供详细的ground-truth信息。
Page Object Detection (POD)数据集: 包含超过2000张图像，用于检测文档图像中的特定页面对象（如表格、公式、图表等）。

AI搜集汇总

数据集介绍

构建方式

table-understanding-dataset的构建基于多源数据的整合与标注，涵盖了扫描图像和原生PDF文档。扫描图像部分主要来源于UW数据集和UNLV数据集，这些数据集提供了丰富的文档图像资源。原生PDF部分则包括PDF-TREX系统和ICDAR 2013表格竞赛数据集，后者包含来自欧盟和美国政府网站的PDF文档，涵盖了复杂的表格结构。此外，数据集还通过手工标注的方式，从计算机科学会议论文中提取了150篇论文的458个图表和190个表格，进一步丰富了数据集的多样性和复杂性。

特点

该数据集的特点在于其广泛的数据来源和多样化的表格类型。它不仅包含了扫描图像和原生PDF文档，还涵盖了从简单到复杂的多种表格结构。数据集中的表格不仅具有丰富的语义信息，还包含了功能分析和语义解释的标注，使得其在表格检测、结构识别和语义理解等任务中具有较高的应用价值。此外，数据集的标注工作经过严格的质量控制，确保了数据的准确性和可靠性。

使用方法

table-understanding-dataset的使用方法主要围绕表格理解的三个核心任务展开：表格检测、表格结构识别和表格语义解释。用户可以通过该数据集评估不同算法在表格检测和结构识别任务中的性能。对于语义解释任务，数据集提供了功能分析和语义解释的标注，用户可以利用这些标注进行表格内容的深入分析。此外，数据集还支持对表格标题和图例的检测，用户可以根据需求调整算法以适应不同的应用场景。数据集的使用文档和可视化工具也为用户提供了便捷的操作指南和结果展示。

背景与挑战

背景概述

表格理解数据集（table-understanding-dataset）是近年来数据库和文档工程领域广泛关注的研究方向。随着互联网的快速发展，从网页和PDF文档中提取结构化数据成为一项重要挑战。该数据集旨在为不同表格理解算法的比较评估提供支持，涵盖了表格检测、表格结构识别和表格解释三个核心任务。表格检测关注于定位文档中的表格区域，表格结构识别则致力于重建表格的单元格结构，而表格解释则进一步涉及功能分析和语义理解，以揭示表格中实体及其关系的深层含义。该数据集的创建时间可追溯至2013年，由ICDAR表格竞赛推动，并得到了多个研究机构的支持，如Göbel等人提出的标准化测试工具包。其影响力不仅限于学术研究，还为实际应用中的文档处理技术提供了重要参考。

当前挑战

表格理解数据集面临的主要挑战包括领域问题和构建过程中的技术难题。在领域问题方面，表格理解的复杂性体现在表格形式的多样性和语义的模糊性上，尤其是科学文献和政府文档中的表格往往具有复杂的结构和多层次的含义。此外，表格的跨语言和多模态特性（如扫描图像和原生PDF）增加了理解和解析的难度。在构建过程中，数据集的创建者需要克服标注一致性和数据多样性的挑战。例如，PDF文档中的表格可能缺乏明确的结构信息，而扫描图像中的表格则可能受到图像质量的影响。此外，数据集的地面真值标注需要高度精确，以确保算法的评估结果具有可靠性。这些挑战不仅推动了表格理解技术的发展，也为未来的研究提供了重要的方向。

常用场景

经典使用场景

在文档分析和数据库领域，表格理解数据集被广泛用于评估和比较不同的表格理解算法。这些算法通常涉及表格检测、表格结构识别和表格解释等任务，旨在从PDF文档或扫描图像中提取和解析表格数据。数据集的使用场景包括学术研究、工业应用以及文档自动化处理系统的开发。

实际应用

在实际应用中，表格理解数据集被广泛用于金融、法律和政府文档的自动化处理。例如，金融机构可以利用该数据集开发自动化工具，从复杂的财务报表中提取关键数据；法律机构则可以通过表格理解技术快速解析合同或法律文件中的表格信息。这些应用显著提高了文档处理的效率和准确性。

衍生相关工作

表格理解数据集衍生了许多经典的研究工作，例如ICDAR 2013表格竞赛中的EU和US数据集，这些数据集为表格检测和结构识别算法的标准化测试提供了重要支持。此外，基于该数据集的研究还推动了表格语义解释技术的发展，例如功能分析和语义解析等方向的研究，进一步丰富了表格理解领域的研究成果。

以上内容由AI搜集并总结生成

用户留言

有没有相关的论文或文献参考？

这个数据集是基于什么背景创建的？

数据集的作者是谁？

能帮我联系到这个数据集的作者吗？

这个数据集如何下载？

点击留言

数据主题

具身智能

数据集 4098个

机构 8个

大模型

数据集 439个

机构 10个

无人机

数据集 37个

机构 6个

指令微调

数据集 36个

机构 6个

蛋白质结构

数据集 50个

机构 8个

空间智能

数据集 21个

机构 5个

5,000+

优质数据集

54 个

任务类型

进入经典数据集

热门数据集

中国交通事故深度调查（CIDAS）数据集

交通事故深度调查数据通过采用科学系统方法现场调查中国道路上实际发生交通事故相关的道路环境、道路交通行为、车辆损坏、人员损伤信息，以探究碰撞事故中车损和人伤机理。目前已积累深度调查事故10000余例，单个案例信息包含人、车、路和环境多维信息组成的3000多个字段。该数据集可作为深入分析中国道路交通事故工况特征，探索事故预防和损伤防护措施的关键数据源，为制定汽车安全法规和标准、完善汽车测评试验规程、

北方大数据交易中心收录

中国农村金融统计数据

该数据集包含了中国农村金融的统计信息，涵盖了农村金融机构的数量、贷款余额、存款余额、金融服务覆盖率等关键指标。数据按年度和地区分类，提供了详细的农村金融发展状况。

www.pbc.gov.cn 收录

UAVDT

UAVDT是一个用于目标检测任务的数据集。

github 收录

Med-MAT

Med-MAT是一个包含106个开源医学数据集的视觉问答（VQA）数据集，旨在推动医学多模态大语言模型（MLLMs）的泛化实验和训练。数据集通过将图像-标签对转换为VQA格式，展示了组合泛化（CG）是MLLMs理解未见图像的关键机制。数据集包括106个医学数据集的问答对、53个按模态、解剖区域和任务（MAT）分类的子集的问答对，以及部分数据集的图像下载链接。

huggingface 收录

AISHELL/AISHELL-1

Aishell是一个开源的中文普通话语音语料库，由北京壳壳科技有限公司发布。数据集包含了来自中国不同口音地区的400人的录音，录音在安静的室内环境中使用高保真麦克风进行，并下采样至16kHz。通过专业的语音标注和严格的质量检查，手动转录的准确率超过95%。该数据集免费供学术使用，旨在为语音识别领域的新研究人员提供适量的数据。

hugging_face 收录