TEXT2ARCH

Name: TEXT2ARCH
Creator: 印度理工学院·鲁尔基分校; 谷歌; 微软
Published: 2026-04-16 20:36:22
License: 暂无描述

arXiv2026-04-16 更新2026-04-18 收录

下载链接：

https://huggingface.co/datasets/shivank21/text2archdata

下载链接

链接失效反馈

官方服务：

资源简介：

TEXT2ARCH是由印度理工学院·鲁尔基分校联合谷歌、微软研发的大规模科学架构图数据集，包含75,127组精准对齐的文本描述-DOT代码-图像三元组。该数据集通过GPT-4o提示工程和结构化解析技术构建，涵盖神经网络架构、软件系统设计等科学图示，其中训练集60,519条、验证集7,565条、测试集7,043条。其核心价值在于解决文本到架构图的语义对齐难题，为AI辅助软件工程、教育可视化等领域提供基准支持。

TEXT2ARCH is a large-scale scientific architecture diagram dataset developed jointly by the Indian Institute of Technology Roorkee, Google and Microsoft. It contains 75,127 precisely aligned text description-DOT code-image triplets. Built using GPT-4o prompt engineering and structured parsing techniques, this dataset covers scientific diagrams including neural network architectures, software system designs and other relevant scientific visualizations. The dataset is split into a training set with 60,519 entries, a validation set with 7,565 entries, and a test set with 7,043 entries. Its core value lies in addressing the semantic alignment challenge in text-to-architecture diagram generation, providing benchmark support for fields such as AI-assisted software engineering and educational visualization.

提供机构：

印度理工学院·鲁尔基分校; 谷歌; 微软

创建时间：

2026-04-16

搜集汇总

数据集介绍

构建方式

在科学可视化领域，TEXT2ARCH数据集的构建采用了系统化的多阶段流水线方法。首先，研究团队从Paper2Fig等现有科学图表数据集中筛选出架构图，通过训练基于CLIP的二元分类器，以83.45%的准确率识别出80,486张架构图像。随后，采用混合策略生成高质量的DOT代码表示：结合GPT-4o的语义理解能力、基于Faster-RCNN的对象检测模型以及Florence-2 OCR技术，通过三重迭代优化得到精确的节点与边结构。同时，利用TF-IDF相似度检索与GPT-4o提示工程，从原始论文段落中提炼出语义丰富的文本描述。最终形成的75,127个样本经过严格过滤，并按节点复杂度分层划分为训练、验证和测试集，确保了数据质量与任务挑战性的平衡。

使用方法

该数据集主要应用于文本到科学架构图的生成任务研究。使用者可将自然语言描述输入到经过微调的语言模型中，模型输出结构化的DOT代码，再通过标准DOT编译器渲染为可视化架构图。评估体系包含双重维度：一方面采用ROUGE-L、CodeBLEU等自然语言生成指标衡量代码的文本相似度；另一方面创新性地引入基于图结构的度量标准，包括节点与边的精确率、召回率、F1分数以及PR-AUC曲线，通过匈牙利算法进行节点匹配，全面评估生成图的结构保真度。研究人员可利用该数据集训练如DeepSeek-7B等轻量级模型，实现与GPT-4o相媲美的生成性能，同时保持模型的开放性与可复现性，推动自动化科学图表生成技术的实际应用。

背景与挑战

背景概述

在复杂系统日益依赖自然语言进行描述与沟通的时代，自动将文本描述转化为精确且语义保真的架构图具有变革性潜力。TEXT2ARCH数据集由Shivank Garg、Sankalp Mittal与Manish Gupta等研究人员于2026年构建，旨在解决科学文献与工程设计中从自然语言生成高质量架构图的长期空白。该数据集聚焦于科学架构图生成这一核心研究问题，通过提供超过7.5万个包含架构图像、文本描述及对应DOT代码的三元组样本，为基于语言模型的语义理解与结构化代码生成任务奠定了数据基础。其发布显著推动了企业架构可视化、AI辅助软件设计与教育内容生成等领域的研究进展，成为文本到架构图生成任务的首个大规模高质量基准。

当前挑战

TEXT2ARCH数据集致力于解决从自然语言生成科学架构图这一领域核心挑战，其首要难点在于实现严格的语义对齐、结构连贯性与细粒度精度，这与自然场景图像生成存在本质差异。现有扩散模型因输入上下文窗口受限、难以捕捉显式逻辑结构，常产生文本组件不可读或视觉元素混乱的图表。在数据集构建过程中，研究人员面临多重挑战：缺乏大规模高质量开放数据，需从ACL-Fig、SciFig与Paper2Fig等异构数据源中筛选架构图，并训练专用分类器；为获取对齐的DOT代码，需融合GPT-4o提示、Florence-2 OCR与流程图目标检测技术，并通过多轮精炼消除噪声；同时，文本描述需从论文段落中提取并利用GPT-4o进行语义增强，确保描述与图像间的精确对应。这些挑战共同凸显了高质量结构化数据构建的复杂性。

常用场景

经典使用场景

在科学文献与工程文档的撰写过程中，TEXT2ARCH数据集被广泛用于训练和评估从自然语言描述自动生成科学架构图的能力。该数据集通过提供超过7.5万个精准对齐的文本描述、DOT代码与架构图像三元组，为研究人员构建端到端的文本到图表生成模型奠定了坚实基础。其经典应用场景包括将论文中的方法描述段落自动转换为清晰的架构框图，从而显著提升学术写作与软件文档编制的效率。

解决学术问题

TEXT2ARCH数据集有效解决了科学图表生成领域长期存在的关键问题，即缺乏大规模、高质量且语义对齐的文本-图表配对数据。该数据集通过精心设计的筛选与标注流程，填补了架构图生成任务中基准数据的空白，使得研究人员能够系统性地探索语言模型在结构化图表生成中的语义理解与代码转换能力。其意义在于推动了文本到科学架构图生成这一新兴研究方向的发展，为评估模型在节点识别、边关系重建等图结构指标上提供了可靠依据。

实际应用

在实际应用层面，TEXT2ARCH数据集支撑的系统能够广泛应用于企业架构可视化、AI辅助软件设计以及教育内容创作等领域。例如，在软件工程中，开发人员可通过自然语言描述快速生成系统架构图，加速设计迭代与团队协作；在教育领域，教师能够将课程文本自动转化为直观的教学图表，增强视觉化学习效果。这些应用显著提升了技术沟通的清晰度与效率，降低了传统手动绘图带来的时间成本与错误风险。

数据集最近研究