five

pubtables-raw

收藏
Hugging Face2024-12-08 更新2024-12-12 收录
下载链接:
https://huggingface.co/datasets/katphlab/pubtables-raw
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集包含多个配置,每个配置包含60000个训练样本。每个样本包含图像、XML、JSON和文件名等特征。数据集的大小和下载大小在每个配置中都有详细说明。
创建时间:
2024-12-04
原始信息汇总

数据集概述

数据集配置

配置名称:test_60000

  • 特征
    • image: 图像
    • xml: 字符串
    • json: 字符串
    • filename: 字符串
  • 分割
    • train: 60000个样本,3866068572.0字节
  • 下载大小:2344194305字节
  • 数据集大小:3866068572.0字节

配置名称:train_120000

  • 特征
    • image: 图像
    • xml: 字符串
    • json: 字符串
    • filename: 字符串
  • 分割
    • train: 60000个样本,3671988428.0字节
  • 下载大小:2192006230字节
  • 数据集大小:3671988428.0字节

配置名称:train_180000

  • 特征
    • image: 图像
    • xml: 字符串
    • json: 字符串
    • filename: 字符串
  • 分割
    • train: 60000个样本,3655793884.0字节
  • 下载大小:2202432426字节
  • 数据集大小:3655793884.0字节

配置名称:train_240000

  • 特征
    • image: 图像
    • xml: 字符串
    • json: 字符串
    • filename: 字符串
  • 分割
    • train: 60000个样本,3752720229.0字节
  • 下载大小:2297386926字节
  • 数据集大小:3752720229.0字节

配置名称:train_300000

  • 特征
    • image: 图像
    • xml: 字符串
    • json: 字符串
    • filename: 字符串
  • 分割
    • train: 60000个样本,3880185868.0字节
  • 下载大小:2367489537字节
  • 数据集大小:3880185868.0字节

配置名称:train_360000

  • 特征
    • image: 图像
    • xml: 字符串
    • json: 字符串
    • filename: 字符串
  • 分割
    • train: 60000个样本,4012771157.0字节
  • 下载大小:2452205014字节
  • 数据集大小:4012771157.0字节

配置名称:train_420000

  • 特征
    • image: 图像
    • xml: 字符串
    • json: 字符串
    • filename: 字符串
  • 分割
    • train: 60000个样本,4008965193.0字节
  • 下载大小:2446777273字节
  • 数据集大小:4008965193.0字节

配置名称:train_480000

  • 特征
    • image: 图像
    • xml: 字符串
    • json: 字符串
    • filename: 字符串
  • 分割
    • train: 60000个样本,3980338648.0字节
  • 下载大小:2431168707字节
  • 数据集大小:3980338648.0字节

配置名称:train_540000

  • 特征
    • image: 图像
    • xml: 字符串
    • json: 字符串
    • filename: 字符串
  • 分割
    • train: 60000个样本,4011332187.0字节
  • 下载大小:2440537747字节
  • 数据集大小:4011332187.0字节

配置名称:train_60000

  • 特征
    • image: 图像
    • xml: 字符串
    • json: 字符串
    • filename: 字符串
  • 分割
    • train: 60000个样本,4026146434.0字节
  • 下载大小:2382326540字节
  • 数据集大小:4026146434.0字节

配置名称:train_600000

  • 特征
    • image: 图像
    • xml: 字符串
    • json: 字符串
    • filename: 字符串
  • 分割
    • train: 60000个样本,4064380469.0字节
  • 下载大小:2485634369字节
  • 数据集大小:4064380469.0字节

配置名称:train_660000

  • 特征
    • image: 图像
    • xml: 字符串
    • json: 字符串
    • filename: 字符串
  • 分割
    • train: 60000个样本,4024747628.0字节
  • 下载大小:2432734327字节
  • 数据集大小:4024747628.0字节

配置名称:train_720000

  • 特征
    • image: 图像
    • xml: 字符串
    • json: 字符串
    • filename: 字符串
  • 分割
    • train: 60000个样本,3953354273.0字节
  • 下载大小:2390125459字节
  • 数据集大小:3953354273.0字节

配置名称:val_60000

  • 特征
    • image: 图像
    • xml: 字符串
    • json: 字符串
    • filename: 字符串
  • 分割
    • train: 60000个样本,3872044291.0字节
  • 下载大小:2346335859字节
  • 数据集大小:3872044291.0字节
搜集汇总
数据集介绍
main_image_url
构建方式
pubtables-raw数据集的构建基于大规模的表格图像及其对应的结构化信息。该数据集通过收集和整理大量表格图像,并为其配备相应的XML和JSON格式的标注文件,确保每张图像与其结构化信息一一对应。数据集的构建过程涵盖了从图像采集、标注到数据分割的完整流程,最终形成了包含多个配置文件的多样化数据集,以满足不同训练和测试需求。
特点
pubtables-raw数据集的显著特点在于其丰富的数据格式和多样化的配置选项。每条数据包含图像、XML和JSON三种格式的信息,分别用于图像展示、结构化信息描述和元数据存储。此外,数据集提供了多种配置,涵盖从60000到720000条数据的规模,便于用户根据需求选择合适的训练集和测试集。
使用方法
使用pubtables-raw数据集时,用户可以根据具体任务选择合适的配置文件,并通过HuggingFace的API进行数据加载。数据集支持图像处理、结构化信息提取等多种应用场景,适用于表格识别、信息抽取等任务。用户可通过加载图像、XML和JSON文件,结合深度学习模型进行训练和评估,从而实现高效的表格数据处理。
背景与挑战
背景概述
pubtables-raw数据集聚焦于表格图像的识别与解析,旨在推动文档处理领域的技术进步。该数据集由多个配置组成,涵盖了从60,000到720,000不等的训练样本,每个样本包含图像、XML、JSON和文件名等特征。其创建时间虽未明确,但从配置的多样性和数据规模推测,该数据集应为近年来的研究成果。主要研究人员或机构通过提供丰富的表格图像数据,为表格识别、结构解析等核心研究问题提供了坚实的基础。该数据集的发布对文档自动化处理、信息提取等领域具有显著的推动作用,尤其是在提升表格识别算法的准确性和鲁棒性方面。
当前挑战
pubtables-raw数据集在构建过程中面临多重挑战。首先,表格图像的多样性使得数据标注和结构解析变得复杂,不同格式、布局和内容的表格需要精确的标注和解析。其次,数据集的规模庞大,处理和存储这些数据需要高效的计算资源和存储技术。此外,表格图像的噪声、模糊和变形等问题也对数据集的质量提出了高要求。在应用层面,如何利用该数据集提升表格识别算法的泛化能力,以及如何处理跨领域、跨语言的表格识别问题,也是当前研究的重点和难点。
常用场景
经典使用场景
在学术研究与工业应用中,pubtables-raw数据集常被用于表格图像的识别与解析任务。该数据集通过提供大量的表格图像及其对应的XML和JSON格式标注,使得研究者能够训练和评估表格检测、表格结构识别等模型。其经典应用场景包括自动化文档处理、数据提取与分析,尤其是在需要从大量文档中提取结构化数据的领域。
解决学术问题
pubtables-raw数据集解决了表格图像识别与解析中的关键学术问题,如表格区域的精确检测、表格结构的复杂解析以及跨文档的表格一致性识别。通过提供丰富的标注数据,该数据集为研究者提供了验证和改进表格识别算法的基础,推动了文档智能处理领域的技术进步。
衍生相关工作
基于pubtables-raw数据集,研究者们开发了多种表格识别与解析模型,如基于深度学习的表格检测网络和结构化表格解析器。这些模型不仅在学术界获得了广泛关注,还在工业界得到了实际应用。此外,该数据集还激发了关于多模态文档理解的研究,推动了文档图像处理技术的整体发展。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作