ds4sd/FinTabNet_OTSL
收藏Hugging Face2023-08-31 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/ds4sd/FinTabNet_OTSL
下载链接
链接失效反馈官方服务:
资源简介:
该数据集是原始FinTabNet数据集的转换版本,采用了我们在论文《Optimized Table Tokenization for Table Structure Recognition》中提出的OTSL格式。数据集包括原始注释以及新添加的内容,如单元格内容、OTSL格式、HTML结构等。数据集的结构包括单元格、OTSL、HTML、恢复的HTML、列数、行数和图像。OTSL词汇表定义了新的表格结构标记格式,如fcel(有内容的单元格)、ecel(空单元格)等。数据集提供了训练集、验证集和测试集三个划分。
该数据集是原始FinTabNet数据集的转换版本,采用了我们在论文《Optimized Table Tokenization for Table Structure Recognition》中提出的OTSL格式。数据集包括原始注释以及新添加的内容,如单元格内容、OTSL格式、HTML结构等。数据集的结构包括单元格、OTSL、HTML、恢复的HTML、列数、行数和图像。OTSL词汇表定义了新的表格结构标记格式,如fcel(有内容的单元格)、ecel(空单元格)等。数据集提供了训练集、验证集和测试集三个划分。
提供机构:
ds4sd
原始信息汇总
数据集概述
数据集名称
- Pretty Name: FinTabNet-OTSL
数据集大小
- Size Categories: 10K<n<100K
标签
- Tags:
- table-structure-recognition
- table-understanding
任务类别
- Task Categories:
- object-detection
- table-to-text
数据集描述
数据集总结
- Summary: 该数据集是对原始FinTabNet的转换,采用了论文中提出的OTSL格式,即“Optimized Table Tokenization for Table Structure Recognition”。数据集包含原始注释及新增内容。
数据集结构
- Structure:
- cells: 原始数据集单元格地真值(内容)。
- otsl: 新的简化表格结构令牌格式。
- html: 原始数据集地真值HTML(结构)。
- html_restored: 从OTSL生成的HTML。
- cols: 网格列长度。
- rows: 网格行长度。
- image: PIL图像。
OTSL词汇
- OTSL Vocabulary:
- "fcel" - 有内容的单元格
- "ecel" - 空单元格
- "lcel" - 左视单元格(处理水平合并的单元格)
- "ucel" - 上视单元格(处理垂直合并的单元格)
- "xcel" - 2D跨度单元格,在本数据集中 - 覆盖合并单元格的整个区域
- "nl" - 新行令牌
数据分割
- Splits:
- train
- val
- test
数据集创建者
- Curators:
- Maksym Lysak, @maxmnemonic
- Ahmed Nassar, @nassarofficial
- Christoph Auer, @cau-git
- Nikos Livathinos, @nikos-livathinos
- Peter Staar, @PeterStaar-IBM
引用信息
bib @misc{lysak2023optimized, title={Optimized Table Tokenization for Table Structure Recognition}, author={Maksym Lysak and Ahmed Nassar and Nikolaos Livathinos and Christoph Auer and Peter Staar}, year={2023}, eprint={2305.03393}, archivePrefix={arXiv}, primaryClass={cs.CV} }
搜集汇总
数据集介绍

构建方式
FinTabNet_OTSL数据集的构建基于原始的FinTabNet数据集,通过引入OTSL(Optimized Table Structure Language)格式进行转换。该转换过程不仅保留了原始数据集的单元格内容和HTML结构,还引入了新的OTSL标记,如'fcel'(有内容的单元格)、'ecel'(空单元格)、'lcel'(水平合并单元格)、'ucel'(垂直合并单元格)和'xcel'(二维跨度单元格)。这些标记旨在优化表格结构识别任务中的标记化过程,从而提升模型的性能。
使用方法
使用FinTabNet_OTSL数据集时,研究者可以利用其提供的多种数据格式进行表格结构识别和理解任务。例如,可以通过分析OTSL标记来训练模型识别和生成表格结构,或者通过对比原始HTML和生成的HTML来评估模型的准确性。此外,数据集的图像数据可以用于视觉任务,如表格图像的检测和识别。数据集提供了训练、验证和测试三个子集,便于研究者在不同阶段进行模型训练和评估。
背景与挑战
背景概述
在表格结构识别与理解领域,FinTabNet_OTSL数据集的诞生标志着对现有技术的进一步优化与扩展。该数据集由IBM Research的Deep Search团队于2023年精心构建,其核心研究问题聚焦于优化表格结构识别中的标记化过程。通过将原始的FinTabNet数据集转换为OTSL(Optimized Table Tokenization for Table Structure Recognition)格式,研究人员旨在提升表格结构识别的效率与准确性。这一创新不仅丰富了表格理解的数据资源,还为相关领域的研究提供了新的视角和方法,推动了表格处理技术的发展。
当前挑战
FinTabNet_OTSL数据集在构建过程中面临多项挑战。首先,如何有效地将原始数据转换为OTSL格式,确保新格式的简洁性与表达力,是技术实现的关键。其次,处理表格中的合并单元格和空白单元格,确保这些复杂结构在OTSL格式中得到准确表示,也是一大难题。此外,数据集的分割与标注需保证训练、验证和测试集的平衡与代表性,以支持模型的全面评估。这些挑战不仅涉及技术层面的创新,还要求对表格结构有深入的理解和精确的处理能力。
常用场景
经典使用场景
在表格结构识别与理解领域,FinTabNet_OTSL数据集以其独特的OTSL格式,成为研究者们探索表格内容与结构关系的重要工具。该数据集不仅保留了原始FinTabNet的细胞内容标注,还引入了新的OTSL标记,如'fcel'、'ecel'、'lcel'、'ucel'和'xcel',这些标记极大地简化了复杂表格的解析过程。通过将表格结构转换为OTSL格式,研究者能够更高效地进行表格到文本的转换和对象检测任务,从而推动了表格理解技术的发展。
解决学术问题
FinTabNet_OTSL数据集在学术研究中解决了表格结构识别中的多个关键问题。首先,它通过引入OTSL格式,简化了复杂表格的解析和表示,使得研究者能够更精确地识别和处理表格中的合并单元格。其次,该数据集提供了从OTSL格式生成的HTML结构,这为研究表格结构与内容的关系提供了新的视角。此外,通过提供训练、验证和测试三个数据集分割,FinTabNet_OTSL为表格结构识别模型的评估和优化提供了坚实的基础,推动了该领域的技术进步。
实际应用
在实际应用中,FinTabNet_OTSL数据集被广泛用于自动化文档处理和信息提取系统。例如,在金融领域,该数据集帮助开发了能够自动解析财务报表和合同文档的系统,从而提高了数据处理的效率和准确性。此外,在法律和医疗文档处理中,FinTabNet_OTSL也被用于提取关键信息,如法律条款和医疗记录,极大地减少了人工处理的时间和成本。通过这些应用,该数据集显著提升了文档处理系统的智能化水平,推动了相关行业的数字化转型。
数据集最近研究
最新研究方向
在表格结构识别领域,FinTabNet_OTSL数据集的最新研究方向主要集中在优化表格标记化(OTSL)格式上。该数据集通过引入OTSL格式,旨在提升表格结构识别的效率和准确性。研究者们致力于探索OTSL格式在处理复杂表格结构中的应用,特别是在处理合并单元格和多维跨度单元格时。此外,该数据集还支持从OTSL格式生成HTML结构,进一步推动了表格理解和文本生成任务的发展。这些研究不仅提升了表格数据的处理能力,还为金融、法律等领域的自动化文档分析提供了新的工具和方法。
以上内容由遇见数据集搜集并总结生成



