BlendNet

github2024-12-20 更新2024-12-21 收录

下载链接：

https://github.com/FreedomIntelligence/BlenderLLM

下载链接

链接失效反馈

官方服务：

资源简介：

BlendNet是一个高质量的数据集，包含12,000个<instruction, CAD script>对。数据集通过手动标注2,000个样本，并使用GPT-4o标注剩余的10,000个样本来确保数据质量和规模。为了确保多样性，对象被分类为16种类型，指令被分类为8种语气，并且指令的长度有所变化。

BlendNet is a high-quality dataset containing 12,000 <instruction, CAD script> pairs. To ensure both data quality and scale, 2,000 samples were manually annotated, and the remaining 10,000 samples were annotated using GPT-4o. To guarantee diversity, the included objects are categorized into 16 types, the instructions are classified into 8 tones, and the instructions have varying lengths.

创建时间：

2024-12-04

原始信息汇总

BlenderLLM 数据集概述

简介

BlenderLLM 是一个专门设计用于生成基于用户指令的 CAD 脚本的大型语言模型。这些脚本随后在 Blender 中执行以渲染 3D 模型。

数据集

BlendNet

概述: 包含 12,000 个 <instruction, CAD script> 对的高质量数据集。
标注方式: 手动标注 2,000 个样本，其余 10,000 个样本使用 GPT-4o 进行标注。
多样性: 对象分为 16 种类型，指令分为 8 种语气，并根据指令长度进行变化。
任务复杂性: 使用 Unit Number、Parameter Density 和 Entropy 三个指标反映几何复杂性、参数复杂性和空间多样性。
下载: 点击此处查看样本并下载 BlendNet。

CADBench

概述: 一个综合基准，用于评估 LLMs 生成 CAD 脚本的能力。包含 500 个模拟数据样本和 200 个从在线论坛收集的数据样本。
评估标准: 每个样本使用多维标准进行评估，包括属性、空间和指令等维度。
下载: 点击此处查看样本并下载 CADBench。

模型

BlenderLLM

基础模型: 基于 Qwen2.5-Coder-7B-Instruct 进行微调。
模型权重: 点击此处下载模型权重。

评估

评估结果

BlenderLLM 在 CADBench-Sim 和 CADBench-Wild 上的表现如下：
- CADBench-Sim: 平均得分 0.748 ± 0.085，语法错误率 3.4%。
- CADBench-Wild: 平均得分 0.664 ± 0.066，语法错误率 3.5%。

限制

基本建模: 主要处理基本 CAD 任务，不支持高级设计方面。
输入范围有限: 仅支持文本指令生成 CAD 脚本，不支持多模态输入。
缺乏多轮对话: 无法处理迭代、多轮交互。

搜集汇总

数据集介绍

构建方式

BlendNet数据集的构建方式体现了对高质量和多样性的追求。该数据集包含12,000个`<instruction, CAD script>`对，其中2,000个样本通过人工标注完成，剩余的10,000个样本则由GPT-4o自动生成。为了确保数据的多样性，研究团队将对象分为16种类型，指令分为8种语气，并调整了指令的长度。此外，数据集通过**Unit Number**、**Parameter Density**和**Entropy**等指标来衡量任务的复杂性，从而全面反映几何复杂度、参数复杂度和空间多样性。

特点

BlendNet数据集的主要特点在于其高质量和多样性。首先，数据集通过人工和自动化相结合的方式构建，确保了数据的质量和规模。其次，数据集涵盖了16种不同类型的对象和8种不同语气的指令，极大地丰富了数据的多样性。此外，数据集通过多维度的指标（如**Unit Number**、**Parameter Density**和**Entropy**）来评估任务的复杂性，使得模型能够更好地理解和处理复杂的CAD任务。

使用方法

BlendNet数据集的使用方法相对简单且灵活。用户可以通过下载数据集并加载到模型中进行训练或评估。对于模型的部署，用户需要安装Blender并设置其可执行路径，以确保能够执行CAD脚本并渲染3D模型。具体操作包括运行`pip install -r requirements.txt`安装依赖包，并通过`python chat.py`或`python modeling.py`命令与模型进行交互。前者仅用于与模型对话，后者则可以生成并执行CAD脚本，最终渲染出3D模型。

背景与挑战

背景概述

BlendNet数据集由香港中文大学（深圳）数据科学学院的研究团队创建，旨在为计算机辅助设计（CAD）领域的大语言模型（LLM）提供高质量的训练数据。该数据集包含12,000个`<instruction, CAD script>`对，通过手动标注和GPT-4o自动标注相结合的方式生成，确保了数据的质量和多样性。BlendNet的创建不仅解决了CAD应用中输入形式复杂的问题，还为LLM在CAD任务中的应用提供了强有力的支持，推动了CAD领域的人工智能技术发展。

当前挑战

BlendNet数据集的构建面临多重挑战。首先，CAD领域的复杂性要求数据集必须涵盖广泛的几何形状和设计任务，这增加了数据标注的难度。其次，为了确保数据集的多样性，研究团队需要对对象类型、指令语气和指令长度进行细致的分类和调整，这进一步提升了数据集的构建成本。此外，BlendNet的评估依赖于CADBench基准，该基准需要严格的多维度评估标准，以确保模型生成的CAD脚本在几何复杂性、参数密度和空间多样性等方面达到预期效果。这些挑战不仅体现在数据集的构建过程中，也延伸至模型的训练和评估阶段。

常用场景

经典使用场景

BlendNet数据集的经典使用场景主要集中在计算机辅助设计（CAD）领域，特别是通过自然语言指令生成CAD脚本。该数据集包含12,000个<指令, CAD脚本>对，能够帮助训练大型语言模型（LLM），使其能够根据用户输入的自然语言指令生成相应的CAD脚本，并在Blender中渲染出3D模型。这种能力极大地简化了CAD设计的复杂性，使得非专业用户也能通过简单的语言描述生成复杂的几何模型。

衍生相关工作

BlendNet数据集的发布催生了一系列相关的经典工作，特别是在CAD领域的LLM应用和评估方面。例如，基于BlendNet训练的BlenderLLM模型，展示了如何通过自然语言指令生成CAD脚本，并在CADBench基准上进行了全面评估。此外，BlendNet还启发了其他研究者探索如何通过自监督学习和多模态输入进一步提升CAD设计的自动化水平。这些工作不仅推动了CAD领域的技术进步，也为其他领域的LLM应用提供了借鉴。

数据集最近研究