CatalogBank

Name: CatalogBank
Creator: 科罗拉多州立大学
Published: 2024-08-16 00:05:59
License: 暂无描述

arXiv2024-08-16 更新2024-08-19 收录

下载链接：

https://github.com/bankh/CatalogBank

下载链接

链接失效反馈

官方服务：

资源简介：

CatalogBank是由科罗拉多州立大学开发的结构化且可互操作的工程设计目录数据集，旨在弥合文本描述与其他数据模式之间的差距。该数据集包含11,984页来自多个供应商的目录，通过半自动注释工具DocumentLabeler进行注释。数据集的创建过程利用了现有的信息提取方法，从PDF格式的目录中提取产品信息，支持自动化设计工作流程。CatalogBank主要应用于文档工程和自然语言处理领域，旨在通过提供一个强大的数据集来训练能够理解和处理复杂文档格式的模型。

CatalogBank is a structured and interoperable engineering design catalog dataset developed by Colorado State University, with the core objective of bridging the gap between textual descriptions and other data modalities. It contains 11,984 pages of catalogs sourced from multiple vendors, which are annotated via the semi-automated annotation tool DocumentLabeler. The dataset's creation process leverages existing information extraction methods to extract product information from PDF-formatted catalogs, thereby supporting automated design workflows. CatalogBank is primarily applied in the fields of document engineering and natural language processing, and it aims to provide a robust dataset for training models capable of understanding and handling complex document formats.

提供机构：

科罗拉多州立大学

创建时间：

2024-08-16

搜集汇总

数据集介绍

构建方式

CatalogBank数据集的构建采用了从工程设计目录中提取产品信息的方法，以解决文本描述与其他数据模态之间缺乏整合的问题。该数据集利用现有的信息提取方法，从PDF格式的目录中提取产品信息，用于下游任务并生成基线指标。构建过程中使用了DocumentLabeler工具，这是一个开源的标注工具，专门为我们的数据集设计，以支持各种基于文档的任务，如布局分析和知识提取。通过使用DocumentLabeler，CatalogBank展示了其在支持多种文档任务方面的潜力。

特点

CatalogBank数据集的特点在于其结构化和互操作性，使其能够支持各种文档工程任务。数据集包括来自不同供应商的数百万个特征的数千个部件，这些部件的功能和物理属性被整合到图结构和分类法中。此外，CatalogBank还包括图像，以便测试文档工程方法，并展示了一个示例，其中包含了来自McMaster Carr v125的架构。数据集的构建旨在确保生成的数据不依赖于非标准化的或非正式的专业知识，而是依赖于标准的工程数据，从而提高了数据集的质量和通用性。

使用方法

使用CatalogBank数据集的方法涉及将PDF目录转换为图像，然后将这些图像导入数据系统，通过手动和自动方式进行数据清理，最后对数据进行标注以训练机器学习模型。数据集的构建过程确保了数据的准确性和结构化，以便有效地用于机器学习。数据集还提供了不同的数据导入和导出格式，以便研究人员可以轻松地使用他们熟悉的数据结构。此外，DocumentLabeler工具的用户界面和快捷键优化了手动标注过程，使每个页面的标注周期从30分钟缩短到几分钟。

背景与挑战

背景概述

CatalogBank数据集的研究背景源于工程设计和自然语言处理（NLP）领域的需求。随着人工智能的快速发展，尤其是深度学习技术在图像处理和自然语言处理领域的突破，数据集的质量和多样性成为制约模型性能和泛化能力的关键因素。CatalogBank数据集由Hasan Sinan Bank和Daniel R. Herber于2024年创建，旨在为工程系统设计提供一种结构化和互操作性的目录数据集。该数据集从PDF格式的目录中提取产品信息，利用现有的信息提取方法，旨在解决传统手动数据输入和非标准元数据结构带来的集成问题。CatalogBank数据集不仅支持设计工作流程的潜在自动化，而且通过使用DocumentLabeler工具，展示了其在支持文档布局分析和知识提取等文档任务方面的潜力。CatalogBank数据集的出现，为文档工程和NLP领域提供了强大的数据资源，有助于训练能够理解和处理复杂文档格式的模型。

当前挑战

CatalogBank数据集和相关领域面临的挑战主要包括：1)所解决的领域问题：CatalogBank旨在解决工程设计中产品信息的自动化提取和集成问题。传统的工程文档设计流程中，产品信息通常以文本形式呈现，而工程设计和制造过程中需要的是与产品信息相关的几何模型和其他数据。CatalogBank通过将文本描述与其他数据模态相结合，为这一挑战提供了新的解决方案。2)构建过程中所遇到的挑战：构建CatalogBank数据集的过程中，研究人员面临着将文本描述与产品信息相结合的挑战，同时需要确保数据的准确性和结构化。此外，数据集的构建还需要考虑可扩展性和多样性，以满足不同领域和任务的需求。DocumentLabeler工具的引入，虽然提高了数据标注的效率和准确性，但在实际应用中，仍需要不断优化和改进，以适应更复杂的文档格式和任务需求。

常用场景

经典使用场景

CatalogBank数据集主要用于文档工程和自然语言处理（NLP）领域，特别是在工程系统设计中数字目录的集成。该数据集通过使用现有的信息提取方法，从基于PDF的目录中提取产品信息，用于下游任务，以生成基线指标。这种方法不仅支持设计工作流程的潜在自动化，还克服了手动数据输入和非标准元数据结构的历史限制，这些限制阻碍了文本和其他数据模式的无缝集成。

衍生相关工作

CatalogBank数据集衍生了许多相关工作，例如Doccano、Prodigy、Supervisely、SageMaker Ground Truth和UBIAI等数据标注工具。这些工具为多模态文档的标注提供了免费、离线、开源和开放架构的解决方案，从而促进了文档工程和NLP领域的发展。

数据集最近研究