文档分析数据集|计算机视觉数据集
收藏库帕思2025-12-22 更新2025-12-27 收录
下载链接:
https://www.kupasai.com/corpus/detail?id=635&type=1
下载链接
链接失效反馈官方服务:
资源简介:
PubLayNet 是一个用于文档布局分析的大规模数据集,包含超过 360,000 张标注文档图像,源自 PubMed Central 的开放获取文献,涵盖文本、图表、表格等典型布局元素。数据集通过自动匹配 XML 结构与 PDF 内容生成,具有高一致性和可扩展性,规模媲美主流计算机视觉数据集。适用于文档解析、版面识别、OCR 系统优化等任务,广泛应用于学术出版物自动化处理和智能文档理解场景。数据标注由 IBM 提供,遵循 CDLA-Permissive-1.0 许可,图像使用需符合 PMC 开放访问条款。
提供机构:
库帕思
创建时间:
2025-12-18



