PubTables-1M (PubMed Tables One Million)
收藏OpenXLab2026-04-18 收录
下载链接:
https://openxlab.org.cn/datasets/OpenDataLab/PubTables-1M
下载链接
链接失效反馈官方服务:
资源简介:
PubTables-1M 的目标是创建一个大型、详细、高质量的数据集,用于训练和评估用于表格检测、表格结构识别和功能分析任务的各种模型。它包含:460,589 个带注释的文档页面,其中包含用于表格检测的表格。 947,642 个完整注释的表格,包括文本内容和完整的位置(边界框)信息,用于表格结构识别和功能分析。所有表格行、列和单元格(包括空白单元格)以及其他注释结构(例如列标题和投影行标题)的图像和 PDF 坐标中的完整边界框。所有表格和页面的渲染图像。每个表格和页面图像中出现的所有单词的边界框和文本。当前模型训练中未使用的其他单元格属性。此外,标题中的单元格被规范化,我们实施了多个质量控制步骤,以确保注释尽可能没有噪音。有关详细信息,请参阅我们的论文。
提供机构:
OpenDataLab
创建时间:
2022-08-16



