DWTAL-s和DWTAL-l
收藏github2025-05-07 更新2025-05-19 收录
下载链接:
https://github.com/justliulong/OGHFYOLO
下载链接
链接失效反馈官方服务:
资源简介:
Deformed Wire Table for Small (DWTAL-s)包含8,765个简单表格,主要来自TAL-OCR;Deformed Wire Table for Large (DWTAL-l)包含19,520个复杂表格,主要扩展自WTW。两个数据集均采用相同的分割策略,80%用于训练,20%用于测试。DWTAL-s包含7,012张训练图像和1,753张测试图像,DWTAL-l包含15,616张训练图像和3,904张测试图像。
Deformed Wire Table for Small (DWTAL-s) consists of 8,765 simple tables, which are mainly sourced from TAL-OCR. Deformed Wire Table for Large (DWTAL-l) contains 19,520 complex tables, primarily extended from WTW. Both datasets employ the identical splitting strategy, with 80% allocated for training and 20% for testing. Specifically, DWTAL-s includes 7,012 training images and 1,753 test images, while DWTAL-l comprises 15,616 training images and 3,904 test images.
创建时间:
2025-04-28
原始信息汇总
OG-HFYOLO数据集概述
数据集基本信息
- 数据集名称: OG-HFYOLO (Orientation Gradient Guidance and Heterogeneous Feature Fusion For Deformation Table Cell Instance Segmentation)
- 作者: Long Liu, Cihui Yang
- 论文链接: arXiv:2504.20682
数据集组成
主要数据集
-
DWTAL-s (Deformed Wire Table for Small)
- 数据量: 8,765张简单表格图像
- 来源: 主要来自TAL-OCR
- 训练集: 7,012张图像
- 测试集: 1,753张图像
-
DWTAL-l (Deformed Wire Table for Large)
- 数据量: 19,520张复杂表格图像
- 来源: 主要扩展自WTW
- 训练集: 15,616张图像
- 测试集: 3,904张图像
数据格式版本
-
YOLO格式
-
COCO格式
-
Labelme格式
-
逻辑坐标标注
数据生成与转换工具
- 数据生成器: ./dataprocess/data_gen.py
- 格式转换脚本:
- yolo2coco
- yolo2labelme
- labelme2yolo
- labelme2coco
许可信息
- 许可证类型: GNU Affero General Public License v3.0 (AGPL-3.0)
- 许可证文件: LICENSE
搜集汇总
数据集介绍

构建方式
在文档图像分析领域,DWTAL-s和DWTAL-l数据集的构建体现了严谨的学术方法。DWTAL-s包含8,765张简化表格图像,主要源自TAL-OCR数据集;DWTAL-l则包含19,520张复杂表格图像,基于WTW数据集扩展而来。为确保数据分布的科学性,采用8:2的比例随机划分训练集和测试集,最终形成7,012/1,753(DWTAL-s)和15,616/3,904(DWTAL-l)的标准划分方案。数据集构建过程中还开发了专用数据生成器,支持YOLO、COCO和LabelMe等多种标注格式的相互转换。
特点
这两个数据集在表格识别领域具有显著特色。DWTAL-s专注于基础表格结构,而DWTAL-l则针对复杂变形表格场景。数据集不仅提供常规的边界框标注,还创新性地包含了表格单元格的逻辑坐标信息(采用1-base索引)和完整HTML序列。多格式支持是其另一大特点,用户可获取YOLO、COCO标准格式,或通过LabelMe进行可视化查看。特别提供的逻辑坐标标注为变形表格的结构识别研究提供了新的基准维度。
使用方法
使用该数据集时,研究者可根据需求选择不同格式版本。通过Google Drive获取YOLO格式数据,或从Huggingface下载COCO格式压缩包。更便捷的方式是直接调用HuggingFace的load_dataset接口加载。训练前需将YOLO格式数据置于指定目录,并修改对应的YAML配置文件。验证阶段支持通过--m_nms参数启用mask非极大值抑制后处理。数据集还附带环境配置说明,建议在Python≥3.8和PyTorch≥1.8的环境中使用。
背景与挑战
背景概述
DWTAL-s与DWTAL-l数据集由Long Liu和Cihui Yang团队构建,旨在推动变形表格实例分割领域的研究。该数据集基于TAL-OCR和WTW等现有表格数据集扩展而来,分别包含8,765张简化表格和19,520张复杂表格图像。数据集采用8:2的比例划分训练集与测试集,确保变形类型分布的均衡性。作为表格结构识别领域的重要基准,DWTAL系列数据集通过提供多格式标注(YOLO、COCO、LabelMe)及逻辑坐标注释,显著促进了变形表格检测算法的开发与评估。
当前挑战
在解决变形表格实例分割这一核心问题时,DWTAL数据集面临三大挑战:其一,表格结构的几何形变(如弯曲、扭曲)导致传统检测方法难以准确定位单元格边界;其二,复杂表格中嵌套单元格与跨行列结构的多样性要求算法具备更强的上下文建模能力。在数据集构建层面,挑战包括:原始数据质量不均需人工清洗,多格式标注转换需保持几何与逻辑一致性,以及大规模表格图像标注需平衡效率与精度。逻辑坐标标注过程中,行列索引的1-base标准化处理也增加了标注复杂度。
常用场景
经典使用场景
在文档分析与表格识别领域,DWTAL-s和DWTAL-l数据集为研究变形表格实例分割提供了标准化的评估基准。这些数据集通过包含大量具有不同变形程度的表格图像,为算法在复杂场景下的鲁棒性测试提供了丰富素材。研究者可利用其YOLO和COCO格式的标注数据,开展端到端的表格检测与分割实验,尤其在评估模型对扭曲、倾斜表格结构的适应能力时展现出独特价值。
实际应用
在实际工业场景中,该数据集支撑的算法可显著提升金融票据、医疗表单等非结构化文档的数字化效率。其标注体系特别适用于开发具有旋转不变性的表格识别系统,在银行流水识别、税务报表解析等垂直领域产生直接应用价值。数据集提供的多格式转换工具链更进一步降低了企业部署表格OCR系统的技术门槛。
衍生相关工作
基于该数据集衍生的OG-HFYOLO模型创新性地融合了方向梯度引导与异构特征融合机制,成为变形表格分割的新基准。相关研究已催生出多项表格结构识别改进方法,包括基于图神经网络的逻辑关系推理、结合形变场的几何校正等技术路线。数据集提供的逻辑坐标标注更推动了表格语义理解与物理结构分析的跨任务研究。
以上内容由遇见数据集搜集并总结生成



