PubTabNet

Name: PubTabNet
Creator: Open-source community
License: 暂无描述

arXiv2025-09-30 收录

下载链接：

https://github.com/ibm-aur-nlp/pubtabnet

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集是为了对HySem模型进行微调和评估而设计的，它包含了经过手动精心挑选的测试样本。这些样本的整理使得我们能够对内容和语义的准确性进行评估。具体任务是将HTML格式的表格数据转换为JSON格式的语义表示。

This dataset is designed for fine-tuning and evaluating the HySem model. It comprises test samples that have been manually and meticulously selected. The curation of these samples enables the assessment of content and semantic accuracy. The specific task herein is to convert HTML-formatted tabular data into JSON-formatted semantic representations.

提供机构：

Open-source community

搜集汇总

数据集介绍

背景与挑战

背景概述

PubTabNet是一个大规模图像表格识别数据集，包含超过56.8万张从PubMed Central开放获取子集提取的表格图像，每张图像都标注有对应的HTML结构表示。该数据集专为表格识别任务设计，更新至2.0.0版本后增加了非空单元格的边界框位置信息，并被用于ICDAR 2021科学文献解析竞赛，相关研究成果发表于ECCV2020。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集