five

PubTabNet

收藏
arXiv2025-09-30 收录
下载链接:
https://github.com/ibm-aur-nlp/pubtabnet
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集是为了对HySem模型进行微调和评估而设计的,它包含了经过手动精心挑选的测试样本。这些样本的整理使得我们能够对内容和语义的准确性进行评估。具体任务是将HTML格式的表格数据转换为JSON格式的语义表示。

This dataset is designed for fine-tuning and evaluating the HySem model. It comprises test samples that have been manually and meticulously selected. The curation of these samples enables the assessment of content and semantic accuracy. The specific task herein is to convert HTML-formatted tabular data into JSON-formatted semantic representations.
提供机构:
Open-source community
搜集汇总
数据集介绍
main_image_url
背景与挑战
背景概述
PubTabNet是一个大规模图像表格识别数据集,包含超过56.8万张从PubMed Central开放获取子集提取的表格图像,每张图像都标注有对应的HTML结构表示。该数据集专为表格识别任务设计,更新至2.0.0版本后增加了非空单元格的边界框位置信息,并被用于ICDAR 2021科学文献解析竞赛,相关研究成果发表于ECCV2020。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作