five

PubTables-1M (PubMed Tables One Million)

收藏
OpenXLab2026-04-18 收录
下载链接:
https://openxlab.org.cn/datasets/OpenDataLab/PubTables-1M
下载链接
链接失效反馈
官方服务:
资源简介:
PubTables-1M 的目标是创建一个大型、详细、高质量的数据集,用于训练和评估用于表格检测、表格结构识别和功能分析任务的各种模型。它包含:460,589 个带注释的文档页面,其中包含用于表格检测的表格。 947,642 个完整注释的表格,包括文本内容和完整的位置(边界框)信息,用于表格结构识别和功能分析。所有表格行、列和单元格(包括空白单元格)以及其他注释结构(例如列标题和投影行标题)的图像和 PDF 坐标中的完整边界框。所有表格和页面的渲染图像。每个表格和页面图像中出现的所有单词的边界框和文本。当前模型训练中未使用的其他单元格属性。此外,标题中的单元格被规范化,我们实施了多个质量控制步骤,以确保注释尽可能没有噪音。有关详细信息,请参阅我们的论文。
提供机构:
OpenDataLab
创建时间:
2022-08-16
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作