Brep2Text

github2026-04-09 更新2026-04-14 收录

下载链接：

https://github.com/user-deng/BrepLLM

下载链接

链接失效反馈

官方服务：

资源简介：

一个包含269K B-rep和文本对的大规模数据集，用于训练和评估。

A large-scale dataset comprising 269K B-rep and text pairs for training and evaluation.

创建时间：

2026-04-09

原始信息汇总

BrepLLM 数据集概述

数据集基本信息

数据集名称：BrepLLM / Brep2Text
数据集发布地址：https://huggingface.co/datasets/Liyuan03/BrepLLM_data
数据集简介：一个用于训练和评估的大规模边界表示（B-rep）与文本配对数据集，旨在使大语言模型能够直接理解和推理原生CAD模型的几何与拓扑结构。

数据集规模与构成

总样本量：约 269K 个 B-rep 与文本配对样本。
训练集：133K 个样本，文件为 brepdata_traindata_133k.json。
测试集：1K 个样本，文件为 brepdata_test_1k.json。

数据样本格式

每个样本为JSON格式，包含以下关键字段：

object_id：对象标识符。
conversation_type：对话类型（例如 single_round）。
conversations：对话内容列表，包含“human”的提问和“gpt”的回答，问题通常围绕CAD模型的语义进行描述。

数据集用途与特点

核心用途：用于训练 BrepLLM 框架，实现大语言模型对原生边界表示数据的跨模态理解与推理。
数据特点：直接使用原始的B-rep数据，而非点云、网格或CAD命令序列等中间格式，保留了模型的几何与拓扑结构。
关联任务：支持CAD模型的文本描述生成、几何推理等语言理解任务。

相关资源

论文地址：https://arxiv.org/abs/2512.16413
演示地址：https://user-deng.github.io/BrepLLM/
代码状态：训练与评估代码即将发布。
许可协议：仅限学术研究用途。

搜集汇总

数据集介绍

构建方式

在计算机辅助设计领域，边界表示作为三维实体建模的核心数据结构，其与自然语言的结合为智能设计系统开辟了新路径。Brep2Text数据集的构建依托于大规模CAD模型库，通过自动化流程提取原生B-rep数据，并采用人工标注与算法辅助相结合的方式，为每个模型生成精确的文本描述。该过程确保了269,000个样本对中几何拓扑信息与语言描述的高度一致性，为跨模态学习提供了坚实基础。

特点

该数据集显著区别于传统三维数据表示，摒弃了点云、网格或命令序列等中间格式，直接基于原生边界表示结构。其样本涵盖丰富的几何特征与拓扑关系，每个条目均包含多轮对话格式的标注，支持从简单识别到复杂推理的多层次任务。数据集规模宏大且标注质量优异，为模型理解CAD模型的语义与结构提供了独特而全面的资源。

使用方法

研究人员可通过HuggingFace平台直接获取数据集，其中训练集与测试集已预先划分。使用时应加载JSON格式文件，依据对话结构提取B-rep数据与对应文本，输入到如BrepLLM等专用框架中进行跨模态对齐训练或下游任务微调。数据集支持CAD模型描述生成、几何问答等多种应用，为推进智能设计领域的语言-几何交互研究提供了即用型基准。

背景与挑战

背景概述

在计算机辅助设计与三维几何处理领域，边界表示（B-rep）作为描述实体模型几何与拓扑结构的核心数据格式，长期以来因其复杂的数学表达而难以被人工智能模型直接理解。Brep2Text数据集应运而生，由Liyuan Deng等研究人员于2025年提出，作为BrepLLM框架的关键组成部分，旨在构建大规模、高质量的B-rep数据与自然语言描述之间的对齐关系。该数据集包含约26.9万个样本，通过直接利用原生B-rep结构，突破了传统方法依赖点云、网格或CAD命令序列等中间表示的局限，为核心研究问题——即如何让大语言模型直接理解并推理几何实体——提供了重要的数据基础，对推动CAD智能理解、跨模态检索与生成等方向具有显著影响力。

当前挑战

Brep2Text数据集致力于解决CAD模型语义理解与描述的挑战，其核心在于如何让模型从复杂的几何拓扑数据中提取高层语义，并生成准确、连贯的文本描述。这一任务面临几何抽象与语言对齐的固有难度，因为B-rep数据包含面、边、顶点等多层次结构，其数学表达与自然语言之间存在巨大的语义鸿沟。在构建过程中，挑战同样显著：首先，高质量文本描述的标注需要领域专家深入理解CAD模型的功能与结构，成本高昂且易引入主观偏差；其次，B-rep数据的异构性与规模对存储、预处理及标准化提出了严格要求，需确保数据一致性与可扩展性，以支撑大规模跨模态学习。

常用场景

经典使用场景

在计算机辅助设计与几何处理领域，Brep2Text数据集为大型语言模型直接理解边界表示数据提供了关键支持。该数据集通过提供大规模、高质量的B-rep与文本描述对，使得模型能够学习几何形状与自然语言之间的语义对齐，从而在CAD模型检索、自动标注和交互式设计等任务中发挥核心作用。其经典应用场景包括基于文本的3D模型搜索，用户通过自然语言查询即可精准定位复杂机械部件，极大提升了设计流程的智能化水平。

衍生相关工作

围绕Brep2Text数据集，衍生出多项经典研究工作，如BrepLLM框架提出了分层B-rep编码器与跨模态对齐方法，开创了语言模型直接理解CAD数据的先河。后续研究在此基础上扩展了多模态任务，包括B-rep生成、设计意图推理等，推动了CAD与人工智能的深度融合。这些工作共同构建了基于边界表示的智能设计生态系统，为几何深度学习领域提供了新的研究方向。

数据集最近研究