B-UML Dataset

github2026-01-16 更新2026-01-20 收录

下载链接：

https://github.com/BESSER-PEARL/BESSER-Dataset

下载链接

链接失效反馈

官方服务：

资源简介：

B-UML数据集是一个大规模数据集，包含5000多个B-UML模型，旨在支持建模语言、模型驱动工程（MDE）和AI辅助建模的研究。该数据集提供每个模型的多个同步表示，支持可重复、定量和可扩展的实验。

The B-UML Dataset is a large-scale dataset that contains over 5,000 B-UML models, designed to support research on modeling languages, model-driven engineering (MDE), and AI-aided modeling. The dataset provides multiple synchronized representations for each model, enabling reproducible, quantitative, and scalable experiments.

创建时间：

2026-01-15

原始信息汇总

B-UML 数据集概述

数据集简介

B-UML 数据集是一个大规模数据集，包含 5,000 多个 B-UML 模型，旨在支持建模语言、模型驱动工程 (MDE) 和AI 辅助建模领域的研究。该数据集为每个模型提供多种同步表示，支持可重复、可量化且可扩展的实验。

数据内容与结构

每个 B-UML 数据集条目包含以下内容：

B-UML 模型：可在 BESSER Web 建模环境 (WME) 中编辑。
模型图像：模型的渲染视觉表示。
结构化元数据：包含类数量、关联数量、属性数量、函数（操作）数量。
确定性文本描述：包含类、属性、关联的描述；为保障可重复性而确定性生成（无提示随机性）。
Python 代码：模型的程序化表示，适用于自动化、分析和机器学习流水线。
标签/类别：源自底层数据库的一致标签，支持受控实验和基于类别的评估。

数据来源

B-UML 数据集源自基于 Ecore 的 Modelset，这是一个社区中已建立完善的模型集合。原始 Ecore 模型被系统性地转换并丰富为 B-UML 表示，同时保持了结构多样性和一致性。

工具支持

BESSER Web 建模环境 (WME)：所有 B-UML 模型均可直接在 BESSER WME 中编辑。

预期用途

该数据集适用于：

建模工具和转换的基准测试。
模型到文本和文本到模型的研究。
建模任务的 LLM 评估与训练。
模型分析与基于度量的研究。
MDE 课程的教学与实验。

仓库结构

dataset/ ├── model_1 │ ├── name_BUML_model │ ├── image.png │ ├── metadata.txt │ ├── python_code.txt │ ├── model_path.txt │ ├── textual_description.txt │ └── category.txt readme.md

许可证

本项目采用 MIT 许可证 (https://mit-license.org/)。

搜集汇总

数据集介绍

构建方式

在模型驱动工程领域，数据集的构建往往依赖于高质量且结构化的模型资源。B-UML数据集源自社区中广泛认可的Ecore-based Modelset，这是一个成熟的模型集合。通过系统性的转换与丰富化处理，原始Ecore模型被转化为B-UML表示形式，同时保持了模型的结构多样性与一致性。这一过程确保了数据集具备可追溯的起源，并为后续研究提供了可靠的基准。

特点

该数据集的核心特征在于其多模态同步表示能力。每个模型条目不仅包含可在BESSER Web建模环境中编辑的B-UML模型，还提供了渲染后的视觉图像、结构化的元数据、确定性的文本描述以及Python代码表示。这种全方位的表征方式使得数据集能够支持从可视化分析到程序化处理的各种研究需求，尤其适用于需要可重复性与量化评估的实验场景。

使用方法

研究人员可通过访问数据集仓库，按照其结构化目录获取所需资源。每个模型以独立文件夹形式组织，内含模型文件、图像、元数据、代码及文本描述等同步表示。这些资源可直接用于建模工具基准测试、模型与文本间的转换研究、大语言模型评估与训练，以及模型分析与度量研究。数据集的设计特别适合替代以往研究中依赖小型示例的情况，为大规模可扩展实验提供坚实基础。

背景与挑战

背景概述

在模型驱动工程与人工智能辅助建模的交叉领域，数据资源的匮乏长期制约着研究的可重复性与规模化实验。B-UML数据集应运而生，由BESSER研究团队基于社区广泛认可的Ecore模型集构建，旨在为建模语言、模型驱动工程及AI辅助建模提供大规模、多表征同步的基准数据。该数据集包含超过5000个B-UML模型，每个模型均提供可编辑的B-UML表示、可视化图像、结构化元数据、确定性文本描述及Python代码等多种同步表征，支持从模型分析、度量研究到自然语言与模型间转换的多样化实验场景。其系统性转化与丰富过程保留了原始模型的结构多样性与一致性，为领域内工具评估、方法验证及教育实践奠定了坚实的数据基础。

当前挑战

B-UML数据集致力于应对模型驱动工程中模型转换、自动化分析与AI辅助建模等核心问题的挑战。具体而言，其需解决模型到文本与文本到模型转换任务中的语义一致性与结构保真度难题，同时为大型语言模型在建模任务中的评估与训练提供可扩展、可重复的基准环境。在构建过程中，挑战主要源于如何将异构的Ecore模型集系统性地转化为统一、可编辑的B-UML表示，并同步生成多模态表征而不引入随机性。这要求转换流程在保持模型结构多样性的同时，确保元数据、文本描述及代码生成过程的确定性与一致性，以支持严谨的量化实验与可控的类别化评估。

常用场景

经典使用场景

在模型驱动工程领域，B-UML数据集为研究人员提供了一个标准化的基准平台，尤其适用于模型转换与生成任务。该数据集包含超过5000个B-UML模型，每个模型均提供可编辑的B-UML格式、图像渲染、结构化元数据及确定性文本描述，使得模型到文本或文本到模型的转换研究能够在可重复、可量化的环境下进行。其多模态同步表征特性，支持从视觉到程序代码的全方位分析，为建模语言的自动化处理奠定了坚实基础。

实际应用

在实际工程与教育场景中，B-UML数据集能够直接服务于建模工具的开发与优化。工程师可利用其Python代码表示集成至自动化流水线，实现模型质量检查或重构任务。在学术教学中，该数据集为模型驱动工程课程提供了丰富的实例库，支持学生进行模型分析、转换实验及度量计算。同时，其与BESSER Web建模环境的无缝兼容，使得模型编辑与可视化调试变得直观高效，降低了建模技术的入门门槛。

衍生相关工作

基于B-UML数据集，研究社区已衍生出一系列经典工作，特别是在AI辅助建模方向。例如，利用其同步文本描述训练大型语言模型，以支持自然语言到UML模型的自动生成；亦有研究借助其结构化元数据开发模型复杂度预测算法，评估设计质量。此外，该数据集作为Ecore-based Modelset的扩展版本，为原有生态注入了B-UML表征，促进了跨建模语言转换技术的比较研究，形成了从传统MDE到智能建模的连贯研究脉络。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集