CADReview

github2025-05-29 更新2025-05-31 收录

下载链接：

https://github.com/Gary-code/CADReview

下载链接

链接失效反馈

官方服务：

资源简介：

CADReview是一个大规模的数据集，包含超过20,000个程序-图像对，具有多样化的几何结构和真实世界的错误类型。

CADReview is a large-scale dataset containing over 20,000 program-image pairs with diverse geometric structures and real-world error types.

创建时间：

2025-05-15

原始信息汇总

CADReview数据集概述

基本信息

数据集名称: CADReview
论文标题: CADReview: Automatically Reviewing CAD Programs with Error Detection and Correction
会议: ACL 2025 main
arXiv链接: https://arxiv.org/abs/2505.22304
主页链接: https://cgl-pro.github.io/cadreview/

数据集简介

目的: 支持CAD程序的自动错误检测和纠正任务，通过比较CAD程序与参考图像实现。
核心贡献:
- 提出ReCAD框架：基于多模态大语言模型(MLLM)，用于生成反馈并编辑代码以实现准确的3D重建。
- 构建CADReview数据集：包含超过20,000个程序-图像对，涵盖多样化的几何结构和真实世界错误类型。

数据集特点

规模: 超过20,000个程序-图像对
多样性: 包含多种几何结构和真实世界错误类型

技术实现

训练框架: ms-swift (版本要求 >= 3.3)
推理框架: vllm (版本要求 >= 0.7.3)
训练内容:
- GCR和SGO的对齐训练
- $phi_1$和$phi_2$的训练
代码结构:
- 对齐训练代码路径: ./training_and_inference/alignment_gcr 和 ./training_and_inference/alignment_sgo
- 模型训练代码路径: ./training_and_inference/feedback_gen 和 ./training_and_inference/code_editor
- 推理脚本路径: ./training_and_inference/inference.py

评估

评估脚本路径: ./evaluate/eval.sh

搜集汇总

数据集介绍

构建方式

CADReview数据集的构建立足于计算机辅助设计（CAD）领域的程序自动审查需求，采用程序-图像对的多模态构建范式。研究团队通过系统化采集超过20,000组CAD程序及其对应的3D渲染图像，精心设计了包含几何结构变异和真实错误类型的标注体系。每对数据均经过专业CAD工程师的严格校验，确保程序错误与参考图像之间的对应关系准确反映实际设计场景中的典型问题，为多模态大语言模型训练提供了高质量的跨模态对齐基础。

特点

该数据集的核心价值在于其覆盖面的广度和错误类型的深度，不仅包含基础几何体组合，还涉及复杂机械结构的程序表征。独特的错误标注体系区分了语法错误、逻辑缺陷和视觉偏差等层级，配合高精度的渲染图像，形成可量化评估的立体审查基准。数据分布兼顾了教育场景的典型错误和工业设计中的专业问题，其多粒度特性支持从基础错误检测到高级程序修复的全链条研究。

使用方法

使用者可通过HuggingFace平台获取标准化处理的数据分片，程序-图像对以JSON格式封装了拓扑结构和渲染参数。模型训练建议采用论文配套的ms-swift框架，通过alignment_gcr和alignment_sgo模块实现几何约束与语义目标的对齐。评估阶段调用专用eval.sh脚本可生成错误定位准确率与程序修复成功率等多维指标，其模块化设计允许研究者灵活替换自定义审查模型进行对比实验。

背景与挑战

背景概述

CADReview数据集由研究团队在2025年提出，旨在解决计算机辅助设计（CAD）程序中的自动错误检测与修正问题。该数据集由超过20,000个程序-图像对构成，涵盖了多样化的几何结构和真实世界中的错误类型，为CAD领域的智能化调试与优化提供了重要支持。研究团队提出的ReCAD框架基于多模态大语言模型（MLLM），能够生成反馈并编辑代码以实现精确的3D重建。这一成果不仅推动了CAD程序的自动化审查进程，也为相关领域的AI应用开辟了新方向。

当前挑战

CADReview数据集面临的挑战主要体现在两个方面。在领域问题层面，如何准确识别CAD程序中的多样化错误并生成有效的修正建议是一个复杂问题，尤其是处理不同几何结构和错误类型时。在构建过程中，数据集需要确保程序-图像对的多样性和真实性，同时平衡不同错误类型的分布。此外，多模态数据的对齐与处理也对模型的训练和评估提出了更高要求，需要解决视觉信息与程序代码之间的语义鸿沟问题。

常用场景

经典使用场景

在计算机辅助设计（CAD）领域，CADReview数据集为研究者和开发者提供了一个标准化的平台，用于评估和改进CAD程序的自动检测与修正能力。该数据集通过程序-图像对的形式，涵盖了多样化的几何结构和真实世界中的错误类型，使得研究者能够在统一的基准下测试模型的性能。特别是在3D重建和CAD程序调试任务中，CADReview数据集已成为验证多模态大语言模型（MLLM）框架有效性的重要工具。

解决学术问题

CADReview数据集解决了CAD程序自动检测与修正中的关键学术问题。传统方法在错误检测和代码修正方面往往依赖人工干预，效率低下且难以覆盖复杂场景。该数据集通过提供大规模的程序-图像对，支持了多模态模型的训练与评估，显著提升了自动化调试的准确性和效率。其意义在于推动了CAD领域从人工调试向智能化、自动化方向的转变，为后续研究奠定了数据基础。

衍生相关工作

CADReview数据集的发布催生了一系列相关研究，尤其是在多模态学习和CAD程序分析领域。基于该数据集，研究者提出了多种改进的MLLM框架，进一步优化了错误检测和代码修正的性能。此外，该数据集还被用于探索CAD程序与自然语言处理的结合，例如生成式模型在CAD代码自动补全中的应用，为跨领域研究提供了新的思路。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集