CMDLA

github2024-09-18 更新2024-09-19 收录

下载链接：

https://github.com/wf1226448774/CMDLA

下载链接

链接失效反馈

官方服务：

资源简介：

CMDLA包含1,000份中文设备规格及其相应的组件位置标记。

CMDLA contains 1,000 Chinese device specifications and their corresponding component position markers.

创建时间：

2024-08-27

原始信息汇总

CMDLA： A Chinese Manual Document Layout Analysis dataset

数据集概述

名称: CMDLA
内容: 包含1,000份中文设备规格说明书及其对应的组件位置标记。
状态: 当前数据集尚未公开，等待相关论文评审结果。评审完成后将立即发布。

数据格式

图像标注: 使用LabelImg工具进行标注。
JSON文件: 数据存储在"CMDLA/json"文件夹中，每个条目包含图像名称和标注信息。
- 示例: json [{ "image": "page_100.png", "annotations": [ { "label": "text","coordinates":{"x": 353.8076923076923,"y": 79.07692307692307,"width": 586.0,"height": 73.0}}, { "label": "text","coordinates": {"x": 655.3076923076924,"y": 208.07692307692307,"width": 811.0,"height": 85.0}}, ... ] }]

知识图谱

构建方法: 将说明书文档输入RPLM模型，获取文本和视觉表示，用于图像-文本匹配和结构化文本信息提取，构建知识图谱。
示例:

安装步骤,Contain,注意事项安装步骤,Contain,连接电源安装步骤,Contain,调整底脚注意事项,Contain,1.检查干衣护理机在运输过程中是否有损坏，损坏的干衣护理机不得进行通电，若出现损坏，请联络产品供应商。 ...
存储平台: 数据存储在Neo4j平台上，并进行可视化展示。

联系信息

作者: Fei Wang
邮箱: wangfei@mails.qust.edu.cn

搜集汇总

数据集介绍

构建方式

CMDLA数据集的构建基于1,000份中文设备规格文档及其对应的组件位置标记。通过使用LabelImg工具对文档中的文本和图像进行标注，生成包含坐标信息的JSON文件。这些标注数据随后被输入到RPLM模型中，以获取文档的文本和视觉表示。这些表示用于图像-文本匹配和结构化文本信息提取，从而构建出设备手册的知识图谱。知识图谱的构建过程涉及将文本和图像信息映射到图数据库Neo4j中，并通过可视化工具展示其结构。

特点

CMDLA数据集的显著特点在于其结合了文本和视觉信息的标注方式，使得数据集不仅包含文本内容的位置信息，还涵盖了图像元素的精确坐标。这种多模态的数据结构为文档布局分析提供了丰富的信息源。此外，通过构建知识图谱，数据集能够支持复杂的文本信息提取和图像-文本匹配任务，为设备手册的智能化处理提供了坚实的基础。

使用方法

使用CMDLA数据集时，用户可以通过解析JSON文件获取文档中各组件的坐标信息，进而进行布局分析和视觉定位。对于知识图谱部分，用户可以利用Neo4j平台进行查询和可视化，以深入理解文档的结构化信息。此外，数据集还支持图像-文本匹配和结构化文本信息提取任务，用户可以通过训练模型来实现这些功能。数据集的公开版本将在相关论文评审完成后发布，届时用户可直接访问并下载使用。

背景与挑战

背景概述

CMDLA（Chinese Manual Document Layout Analysis）数据集由Fei Wang及其团队创建，专注于中文设备规格文档的布局分析。该数据集包含1,000份中文设备规格文档及其相应的组件位置标记，旨在推动文档布局分析领域的研究。CMDLA的创建不仅填补了中文文档布局分析数据集的空白，还为相关领域的研究提供了宝贵的资源，特别是在图像与文本匹配及结构化文本信息提取方面。

当前挑战

CMDLA数据集在构建过程中面临多重挑战。首先，中文文档的复杂布局和多样性增加了标注的难度，需要精确的组件位置标记。其次，数据集的构建涉及图像与文本的匹配，以及结构化文本信息的提取，这些任务在技术实现上具有较高的复杂性。此外，数据集的公开发布受限于相关论文的评审过程，这可能影响其及时性和广泛应用。

常用场景

经典使用场景

CMDLA数据集在文档布局分析领域中具有经典应用，主要用于训练和评估模型以自动识别和定位中文设备说明书中的文本和图像组件。通过提供精确的坐标标记，该数据集能够帮助研究人员开发高效的文档解析算法，从而实现对复杂文档结构的自动化理解与处理。

衍生相关工作

基于CMDLA数据集，研究人员已开展了一系列相关工作，包括开发新的文档布局分析算法、改进图像与文本匹配技术，以及构建更为复杂的知识图谱。这些工作不仅提升了文档智能处理的水平，还为其他领域的研究提供了新的思路和方法，推动了跨学科的技术进步。

数据集最近研究