five

lowercaseonly/cghd

收藏
Hugging Face2024-07-11 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/lowercaseonly/cghd
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集名为手绘电路图的公共地面实况数据集(GTDB-HD),包含手绘电气电路图的图像以及用于对象检测的边界框注释和分割地面实况文件。数据集旨在训练模型以从栅格图形中提取电气图。数据集的结构包括多个文件夹,分别存储图像、注释、实例分割多边形和分割地图等。此外,README还提供了数据集的使用指南、贡献方式、引用格式和许可证信息。

This dataset, named Public Ground-Truth Dataset for Handwritten Circuit Diagrams (GTDB-HD), contains images of hand-drawn electrical circuit diagrams as well as accompanying bounding box annotations for object detection and segmentation ground truth files. The dataset is intended to train models for the purpose of extracting electrical graphs from raster graphics. The dataset structure includes multiple folders storing images, annotations, instance segmentation polygons, and segmentation maps. Additionally, the README provides guidelines for using the dataset, ways to contribute, citation format, and licensing information.
提供机构:
lowercaseonly
原始信息汇总

公共手绘电路图数据集(GTDB-HD)

数据集概述

  • 名称: 公共手绘电路图数据集(GTDB-HD)
  • 许可证: Creative Commons Attribution Share Alike 3.0
  • 大小: 1K<n<10K
  • 任务类别:
    • 目标检测
    • 图像分割
  • 语言:
    • 英语
    • 德语

数据集结构

gtdh-hd │ README.md # 本文件 │ classes.json # 类别列表 │ classes_color.json # 类别到颜色映射 │ classes_discontinuous.json # 类别形态信息 │ classes_ports.json # 类别电气端口描述 │ consistency.py # 数据集统计和一致性检查 | loader.py # 简单数据集加载和存储功能 │ segmentation.py # 多类别分割生成 │ utils.py # 辅助函数 │ requirements.txt # 脚本需求 └───drafter_D │ └───annotations # 边界框标注 │ │ │ CX_DY_PZ.xml │ │ │ ... │ │ │ └───images # 原始图像 │ │ │ CX_DY_PZ.jpg │ │ │ ... │ │ │ └───instances # 实例分割多边形 │ │ │ CX_DY_PZ.json │ │ │ ... │ │ │ └───segmentation # 二值分割图(笔画 vs 背景) │ │ │ CX_DY_PZ.jpg │ │ │ ... ...

文件命名规则

  • D 是绘图者的全局编号
  • X 是电路的全局编号(每个绘图者12个电路)
  • Y 是电路图的局部编号(每个电路2个图)
  • Z 是图的局部编号(每个图4张图片)

图像文件

  • 每张图像为RGB颜色,存储格式为jpgjpegpng(大小写后缀都存在)。

边界框标注

  • 类别标签及其映射表可在classes.json中找到。
  • 标注采用PASCAL VOC格式。
  • 每个原始图像都有对应的边界框标注文件。

已知标注问题

  • C25_D1_P4 截断了一个文本
  • C27 截断了一些文本
  • C29_D1_P1 有一个额外的文本
  • C31_D2_P4 少了一个文本
  • C33_D1_P4 少了一个文本
  • C46_D2_P2 截断了一个文本

实例分割

  • 每个二值分割图都有对应的实例分割多边形标注文件,采用labelme格式。

分割图

  • 二值分割图与相应图像文件分辨率相同,仅包含黑白像素,表示绘图笔画和背景。

网表文件

  • 部分图像有网表文件,存储格式为ASC

一致性和统计

  • 提供脚本进行类别分布、边界框大小统计和一致性检查。

  • 脚本调用方式:

    $ python3 consistency.py

    或指定绘图者:

    $ python3 consistency.py 15

多类别(实例)分割处理

  • 提供脚本处理新的和现有的(实例)分割文件。

  • 脚本调用方式:

    $ python3 segmentation.py <command> <drafter_id> <target> <source>

    其中<command>可以是:

    • transform
    • wire
    • keypoint
    • create
    • refine
    • pipeline
    • assign

数据集加载器

  • 提供加载和写入功能,可用于训练。

  • 基本用法:

    from loader import read_dataset

    db_bb = read_dataset() # 读取所有边界框标注 db_seg = read_dataset(segmentation=True) # 读取所有多边形标注 db_bb_val = read_dataset(drafter=12) # 读取绘图者12的边界框标注

    len(db_bb) # 获取样本数量 db_bb[5] # 获取任意样本

    db = read_images(drafter=12) # 返回(图像, 标注)对列表 db = read_snippets(drafter=12) # 返回(图像, 标注)对列表

引用

@inproceedings{thoma2021public, title={A Public Ground-Truth Dataset for Handwritten Circuit Diagram Images}, author={Thoma, Felix and Bayer, Johannes and Li, Yakun and Dengel, Andreas}, booktitle={International Conference on Document Analysis and Recognition}, pages={20--27}, year={2021}, organization={Springer} }

搜集汇总
数据集介绍
main_image_url
构建方式
该数据集名为GTDB-HD,专门用于手绘电路图的图像分析。其构建过程包括收集大量手绘电路图的图像,并为其提供相应的边界框标注和分割真值文件。这些图像和标注数据被组织成一个层次结构,每个绘图者(drafter)的图像和标注数据被分别存储在独立的文件夹中。此外,数据集还包括用于对象检测和图像分割的标注文件,以及用于生成多类分割图的脚本。
特点
GTDB-HD数据集的主要特点在于其对手绘电路图的详细标注,包括边界框和实例分割的多边形标注。这些标注不仅涵盖了电路符号和文本,还包括了连接线和交叉点的详细信息。此外,数据集还提供了用于检查数据一致性和生成多类分割图的脚本,增强了数据集的实用性和可扩展性。
使用方法
使用GTDB-HD数据集时,用户可以通过提供的脚本加载数据,进行对象检测和图像分割的训练。数据集的加载器设计简单且与框架无关,用户可以从文件系统的任何位置调用。此外,数据集还提供了用于处理新旧分割文件的脚本,用户可以通过指定绘图者ID和目标文件夹来执行特定的处理步骤,如生成多类分割图或细化多边形标注。
背景与挑战
背景概述
手写电路图像是电子工程领域中的重要研究对象,其自动识别与解析对于电路设计和分析具有重要意义。GTDB-HD数据集由Felix Thoma、Johannes Bayer、Yakun Li和Andreas Dengel等人于2021年创建,旨在为手写电路图的图像识别提供一个公共的基准数据集。该数据集包含了手绘电路图的图像及其相应的边界框标注和分割真值文件,适用于对象检测和图像分割任务。通过提供高质量的标注数据,GTDB-HD数据集为训练神经网络模型以从光栅图形中提取电路图提供了宝贵的资源,极大地推动了电路图自动识别技术的发展。
当前挑战
尽管GTDB-HD数据集在手写电路图识别领域具有重要价值,但其构建过程中仍面临诸多挑战。首先,手写电路图的多样性和复杂性使得标注工作异常繁琐,需要高度专业化的知识和技能。其次,图像中存在的光照变化、角度差异和轻微模糊等问题增加了数据处理的难度。此外,数据集中某些标注文件存在已知的标签问题,如文本被截断或遗漏,这要求在后续研究中进行修正和完善。最后,多类分割处理和旋转标注的复杂性也是该数据集面临的重要挑战,需要进一步优化算法以提高标注的准确性和一致性。
常用场景
经典使用场景
在电子工程领域,手绘电路图的自动识别与解析一直是研究的热点。lowercaseonly/cghd数据集通过提供大量手绘电路图及其详细的标注信息,为训练和评估对象检测与图像分割模型提供了宝贵的资源。该数据集的经典使用场景包括:利用其丰富的标注数据训练深度学习模型,以实现对手绘电路图中电气符号、文本和连接线的自动检测与分割,从而为电路图的自动化分析与理解奠定基础。
解决学术问题
lowercaseonly/cghd数据集解决了手绘电路图自动识别中的多个关键学术问题。首先,它提供了高质量的标注数据,解决了数据稀缺的问题,使得研究人员能够更有效地训练和验证模型。其次,通过包含多种语言(如英语和德语)的电路图,该数据集促进了跨语言电路图识别的研究。此外,数据集中的实例分割和多类分割标注,为研究复杂电路图的精细解析提供了可能,推动了电路图理解技术的发展。
衍生相关工作
基于lowercaseonly/cghd数据集,已衍生出多项经典工作。例如,有研究利用该数据集开发了高效的电路图符号识别算法,显著提升了识别精度。此外,还有工作通过结合该数据集与其他自然图像数据集,探索了跨领域模型的迁移学习方法,取得了良好的效果。在图像分割领域,研究人员利用该数据集中的多类分割标注,提出了新的分割网络结构,进一步提升了电路图解析的准确性。这些衍生工作不仅丰富了电路图识别的研究内容,也为相关领域的技术进步提供了新的思路。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作