PubTables-1M_OTSL-v1.1
收藏Hugging Face2025-02-10 更新2025-02-11 收录
下载链接:
https://huggingface.co/datasets/ds4sd/PubTables-1M_OTSL-v1.1
下载链接
链接失效反馈官方服务:
资源简介:
PubTables-1M-OTSL数据集是一个包含表格结构信息的表格数据集,它是原始PubTables-1M数据集的一个过滤版本,样本数量较少。该数据集可以用于评估对象检测模型和图像到文本方法的性能。数据集包括原始注释以及新的添加内容。
创建时间:
2025-02-06
搜集汇总
数据集介绍

构建方式
PubTables-1M_OTSL-v1.1数据集是由IBM Research的Deep Search团队基于原始的PubTables-1M数据集进行筛选和处理后构建而成的。该数据集针对表格结构识别任务,采用了OTSL(Optimized Table Structure Language)格式进行标注,包含了表格单元的原始地面真实数据、表格检测的地面真实数据以及新的表格结构标记格式。数据集的构建旨在为表格结构识别与图像到文本转换的模型评估提供支持。
特点
本数据集的主要特点是经过优化的表格结构标注格式OTSL,该格式对表格的结构进行了简化的表示,使得表格的结构识别更为高效。数据集涵盖了内容单元格、空单元格、左右上下的单元格标记,以及合并单元格的表示,还包括行和列的头部标记,为表格的理解和解析提供了丰富的信息。此外,数据集提供了训练、验证和测试三个分割,以适应不同的模型训练和评估需求。
使用方法
使用该数据集时,研究者可以依据其提供的不同格式的标注信息,如原始单元格地面真实数据、表格检测地面真实数据以及OTSL格式标注,来训练和评估表格结构识别和图像到文本转换的模型。数据集支持标准的机器学习训练流程,用户可以通过Hugging Face平台提供的接口轻松加载和利用这些数据进行模型的训练与测试。
背景与挑战
背景概述
PubTables-1M_OTSL-v1.1数据集,是在2023年由IBM Research的Deep Search团队对原始的PubTables-1M数据集进行优化后的版本。原始数据集由Smock等人提出,旨在从非结构化文档中提取表格,并在CVPR 2022上发表相关论文。该数据集经过Lysak等人的进一步加工,引入了OTSL(Optimized Table Structure Language)格式,并在arXiv上发表了关于优化表格结构识别的论文。此数据集不仅包含了原始的标注信息,还增加了新的标注,为表格结构识别和图像到文本转换的模型评估提供了可能。
当前挑战
该数据集在构建过程中所遇到的挑战主要包括如何精确识别表格的结构,尤其是在处理合并单元格时。此外,数据集在转换和标注过程中,如何保持表格结构的完整性和准确性,以及如何有效地表示不同类型的单元格,如标题单元格、空单元格等,都是需要解决的问题。在研究领域问题方面,此数据集面临的挑战是如何提高表格识别的准确率,以及如何更好地理解和转换表格内容,以适应不同的应用场景。
常用场景
经典使用场景
在表格结构识别与理解的研究领域,PubTables-1M_OTSL-v1.1数据集以其丰富的表格结构标注信息而成为评估对象检测模型和图像到文本方法的重要资源。该数据集的典型应用场景在于,研究人员可通过其提供的训练与验证数据,对表格检测与内容提取算法进行训练和测试,进而优化算法的准确性和鲁棒性。
解决学术问题
该数据集解决了学术研究中表格自动识别与内容提取的难题,为表格结构识别和表格内容解析提供了基准。通过使用PubTables-1M_OTSL-v1.1,研究者能够更好地理解和分析表格数据,从而推动了信息检索、数据挖掘和自然语言处理等领域的发展。
衍生相关工作
基于PubTables-1M_OTSL-v1.1数据集,研究者已衍生出多项相关工作,包括但不限于表格结构解析算法的改进、表格数据的语义理解以及表格在特定领域中的应用研究,这些工作进一步拓展了该数据集的使用范围和影响力。
以上内容由遇见数据集搜集并总结生成



