Brep2Text
收藏github2026-04-09 更新2026-04-14 收录
下载链接:
https://github.com/user-deng/BrepLLM
下载链接
链接失效反馈官方服务:
资源简介:
一个包含269K B-rep和文本对的大规模数据集,用于训练和评估。
A large-scale dataset comprising 269K B-rep and text pairs for training and evaluation.
创建时间:
2026-04-09
原始信息汇总
BrepLLM 数据集概述
数据集基本信息
- 数据集名称:BrepLLM / Brep2Text
- 数据集发布地址:https://huggingface.co/datasets/Liyuan03/BrepLLM_data
- 数据集简介:一个用于训练和评估的大规模边界表示(B-rep)与文本配对数据集,旨在使大语言模型能够直接理解和推理原生CAD模型的几何与拓扑结构。
数据集规模与构成
- 总样本量:约 269K 个 B-rep 与文本配对样本。
- 训练集:133K 个样本,文件为
brepdata_traindata_133k.json。 - 测试集:1K 个样本,文件为
brepdata_test_1k.json。
数据样本格式
每个样本为JSON格式,包含以下关键字段:
object_id:对象标识符。conversation_type:对话类型(例如single_round)。conversations:对话内容列表,包含“human”的提问和“gpt”的回答,问题通常围绕CAD模型的语义进行描述。
数据集用途与特点
- 核心用途:用于训练 BrepLLM 框架,实现大语言模型对原生边界表示数据的跨模态理解与推理。
- 数据特点:直接使用原始的B-rep数据,而非点云、网格或CAD命令序列等中间格式,保留了模型的几何与拓扑结构。
- 关联任务:支持CAD模型的文本描述生成、几何推理等语言理解任务。
相关资源
- 论文地址:https://arxiv.org/abs/2512.16413
- 演示地址:https://user-deng.github.io/BrepLLM/
- 代码状态:训练与评估代码即将发布。
- 许可协议:仅限学术研究用途。
搜集汇总
数据集介绍

构建方式
在计算机辅助设计领域,边界表示作为三维实体建模的核心数据结构,其与自然语言的结合为智能设计系统开辟了新路径。Brep2Text数据集的构建依托于大规模CAD模型库,通过自动化流程提取原生B-rep数据,并采用人工标注与算法辅助相结合的方式,为每个模型生成精确的文本描述。该过程确保了269,000个样本对中几何拓扑信息与语言描述的高度一致性,为跨模态学习提供了坚实基础。
特点
该数据集显著区别于传统三维数据表示,摒弃了点云、网格或命令序列等中间格式,直接基于原生边界表示结构。其样本涵盖丰富的几何特征与拓扑关系,每个条目均包含多轮对话格式的标注,支持从简单识别到复杂推理的多层次任务。数据集规模宏大且标注质量优异,为模型理解CAD模型的语义与结构提供了独特而全面的资源。
使用方法
研究人员可通过HuggingFace平台直接获取数据集,其中训练集与测试集已预先划分。使用时应加载JSON格式文件,依据对话结构提取B-rep数据与对应文本,输入到如BrepLLM等专用框架中进行跨模态对齐训练或下游任务微调。数据集支持CAD模型描述生成、几何问答等多种应用,为推进智能设计领域的语言-几何交互研究提供了即用型基准。
背景与挑战
背景概述
在计算机辅助设计与三维几何处理领域,边界表示(B-rep)作为描述实体模型几何与拓扑结构的核心数据格式,长期以来因其复杂的数学表达而难以被人工智能模型直接理解。Brep2Text数据集应运而生,由Liyuan Deng等研究人员于2025年提出,作为BrepLLM框架的关键组成部分,旨在构建大规模、高质量的B-rep数据与自然语言描述之间的对齐关系。该数据集包含约26.9万个样本,通过直接利用原生B-rep结构,突破了传统方法依赖点云、网格或CAD命令序列等中间表示的局限,为核心研究问题——即如何让大语言模型直接理解并推理几何实体——提供了重要的数据基础,对推动CAD智能理解、跨模态检索与生成等方向具有显著影响力。
当前挑战
Brep2Text数据集致力于解决CAD模型语义理解与描述的挑战,其核心在于如何让模型从复杂的几何拓扑数据中提取高层语义,并生成准确、连贯的文本描述。这一任务面临几何抽象与语言对齐的固有难度,因为B-rep数据包含面、边、顶点等多层次结构,其数学表达与自然语言之间存在巨大的语义鸿沟。在构建过程中,挑战同样显著:首先,高质量文本描述的标注需要领域专家深入理解CAD模型的功能与结构,成本高昂且易引入主观偏差;其次,B-rep数据的异构性与规模对存储、预处理及标准化提出了严格要求,需确保数据一致性与可扩展性,以支撑大规模跨模态学习。
常用场景
经典使用场景
在计算机辅助设计与几何处理领域,Brep2Text数据集为大型语言模型直接理解边界表示数据提供了关键支持。该数据集通过提供大规模、高质量的B-rep与文本描述对,使得模型能够学习几何形状与自然语言之间的语义对齐,从而在CAD模型检索、自动标注和交互式设计等任务中发挥核心作用。其经典应用场景包括基于文本的3D模型搜索,用户通过自然语言查询即可精准定位复杂机械部件,极大提升了设计流程的智能化水平。
衍生相关工作
围绕Brep2Text数据集,衍生出多项经典研究工作,如BrepLLM框架提出了分层B-rep编码器与跨模态对齐方法,开创了语言模型直接理解CAD数据的先河。后续研究在此基础上扩展了多模态任务,包括B-rep生成、设计意图推理等,推动了CAD与人工智能的深度融合。这些工作共同构建了基于边界表示的智能设计生态系统,为几何深度学习领域提供了新的研究方向。
数据集最近研究
最新研究方向
在计算机辅助设计领域,Brep2Text数据集正推动着几何理解与人工智能的深度融合。该数据集作为BrepLLM框架的核心组成部分,通过提供大规模边界表示与文本描述对,直接支持大语言模型对原生CAD数据进行几何与拓扑结构解析,突破了传统依赖点云或网格等中间格式的局限。当前研究聚焦于跨模态对齐与层次化编码技术,旨在实现几何数据与自然语言的无缝交互,为智能设计生成、自动化工程分析等前沿应用奠定基础,显著提升了CAD系统在语义理解和创造性推理方面的能力。
以上内容由遇见数据集搜集并总结生成



