sketchai/sam-dataset|CAD设计数据集|机器学习数据集

hugging_face2022-07-13 更新2024-03-04 收录

CAD设计

机器学习

下载链接：

https://hf-mirror.com/datasets/sketchai/sam-dataset

下载链接

链接失效反馈

资源简介：

--- annotations_creators: - no-annotation language_creators: - other language: [] license: - lgpl-3.0 multilinguality: [] pretty_name: Sketch Data Model Dataset size_categories: - 1M<n<10M task_categories: [] task_ids: [] --- # Dataset Card for Sketch Data Model Dataset ## Table of Contents - [Dataset Description](#dataset-description) - [Dataset Summary](#dataset-summary) - [Supported Tasks](#supported-tasks-and-leaderboards) - [Dataset Structure](#dataset-structure) - [Data Instances](#data-instances) - [Data Fields](#data-instances) - [Data Splits](#data-instances) - [Dataset Creation](#dataset-creation) - [Curation Rationale](#curation-rationale) - [Source Data](#source-data) - [Annotations](#annotations) - [Personal and Sensitive Information](#personal-and-sensitive-information) - [Considerations for Using the Data](#considerations-for-using-the-data) - [Social Impact of Dataset](#social-impact-of-dataset) - [Discussion of Biases](#discussion-of-biases) - [Other Known Limitations](#other-known-limitations) - [Additional Information](#additional-information) - [Dataset Curators](#dataset-curators) - [Licensing Information](#licensing-information) - [Citation Information](#citation-information) ## Dataset Description - **Homepage:** https://github.com/sketchai - **Repository:** https://github.com/sketchai/preprocessing - **Paper:** [Needs More Information] - **Leaderboard:** [Needs More Information] - **Point of Contact:** [Needs More Information] ### Dataset Summary This dataset contains over 6M CAD 2D sketches extracted from Onshape. Sketches are stored as python objects in the custom SAM format. SAM leverages the [Sketchgraphs](https://github.com/PrincetonLIPS/SketchGraphs) dataset for industrial needs and allows for easier transfer learning on other CAD softwares. ### Supported Tasks and Leaderboards Tasks: Automatic Sketch Generation, Auto Constraint ## Dataset Structure ### Data Instances The presented npy files contain python pickled objects and require the [flat_array](https://github.com/PrincetonLIPS/SketchGraphs/blob/master/sketchgraphs/data/flat_array.py) module of Sketchgraphs to be loaded. The normalization_output_merged.npy file contains sketch sequences represented as a list of SAM Primitives and Constraints. The sg_merged_final_*.npy files contain encoded constraint graphs of the sketches represented as a dictionnary of arrays. ### Data Fields [Needs More Information] ### Data Splits |Train |Val |Test | |------|------|------| |6M |50k | 50k | ## Dataset Creation ### Curation Rationale [Needs More Information] ### Source Data #### Initial Data Collection and Normalization [Needs More Information] #### Who are the source language producers? [Needs More Information] ### Annotations #### Annotation process [Needs More Information] #### Who are the annotators? [Needs More Information] ### Personal and Sensitive Information [Needs More Information] ## Considerations for Using the Data ### Social Impact of Dataset [Needs More Information] ### Discussion of Biases [Needs More Information] ### Other Known Limitations [Needs More Information] ## Additional Information ### Dataset Curators [Needs More Information] ### Licensing Information [Needs More Information] ### Citation Information [Needs More Information]

提供机构：

sketchai

原始信息汇总

数据集概述

数据集基本信息

名称: Sketch Data Model Dataset
大小: 1M<n<10M
许可证: LGPL-3.0
语言: 不适用
多语言性: 不适用
注释创建者: 无注释
语言创建者: 其他

数据集描述

数据集摘要

内容: 包含超过6M的CAD 2D草图，提取自Onshape。
存储格式: 以自定义SAM格式存储为Python对象。
用途: 利用Sketchgraphs数据集满足工业需求，并支持在其他CAD软件上的迁移学习。

支持的任务

任务: 自动草图生成, 自动约束

数据集结构

数据实例

文件类型: npy文件，包含Python序列化对象。
依赖: 需要Sketchgraphs的flat_array模块加载。
特定文件:
- normalization_output_merged.npy: 包含以SAM原语和约束表示的草图序列。
- sg_merged_final_*.npy: 包含以数组字典表示的草图约束图。

数据字段

信息: 待补充

数据分割

类型	数量
训练	6M
验证	50k
测试	50k

数据集创建

数据收集与规范化

信息: 待补充

源数据语言生产者

信息: 待补充

注释

注释过程: 待补充
注释者: 待补充

个人与敏感信息

信息: 待补充

使用数据集的考虑

社会影响

信息: 待补充

偏见讨论

信息: 待补充

其他已知限制

信息: 待补充

附加信息

数据集管理者

信息: 待补充

许可证信息

信息: 待补充

引用信息

信息: 待补充

AI搜集汇总

数据集介绍

构建方式

该数据集的构建基于从Onshape平台提取的超过600万份CAD 2D草图。这些草图以Python对象的形式存储在自定义的SAM格式中，旨在服务于工业需求，并便于在其他CAD软件上进行迁移学习。

特点

Sketch Data Model Dataset的主要特点是包含大量的工业级CAD草图数据，采用SAM格式存储，支持自动草图生成和自动约束任务。数据集分为训练集、验证集和测试集，分别包含600万、5万和5万条数据实例。

使用方法

使用该数据集时，需要借助Sketchgraphs的flat_array模块来加载npy文件中的Python对象。数据集中的草图序列以SAM基本元素和约束的列表形式表示，而约束图则以字典形式编码。用户需根据具体任务对数据进行相应的预处理和加载。

背景与挑战

背景概述

在计算机辅助设计（CAD）领域， Sketch Data Model Dataset 的构建标志着一项重要的研究进展。该数据集由sketchai组织创建，包含超过600万份从Onshape平台提取的2D CAD草图，并以自定义的SAM格式存储。其旨在为工业需求利用Sketchgraphs数据集，促进在其它CAD软件上的迁移学习。尽管数据集的具体创建时间和核心研究问题尚不明确，但其对推动自动草图生成、自动约束等任务的研究具有显著影响。

当前挑战

该数据集的构建过程中面临的挑战包括数据采集与标准化、缺乏详细的注释过程和注释者信息。此外，数据集在解决领域问题如自动草图生成和自动约束的同时，也面临着如何处理社会影响、偏见讨论以及其它已知局限性的挑战。特别是，数据集未提供关于个人敏感信息的内容，这可能引发隐私和伦理问题。

常用场景

经典使用场景

在计算机辅助设计（CAD）领域，Sketch Data Model Dataset数据集的经典使用场景主要集中于自动草图生成与自动约束识别。该数据集通过提供超过600万份从Onshape平台提取的2D CAD草图，为机器学习模型提供了丰富的训练素材，使得模型能够精确地理解和生成工程草图，从而大幅度提升设计效率。

衍生相关工作

基于Sketch Data Model Dataset，衍生出了许多相关的工作，包括但不限于改进草图识别算法、开发新型CAD工具、以及探索草图数据在增强现实（AR）和虚拟现实（VR）中的应用。这些工作进一步扩展了数据集的应用边界，为相关领域的研究提供了新的视角和工具。

数据集最近研究

最新研究方向

在计算机辅助设计（CAD）领域，Sketch Data Model Dataset的构建为自动草图生成与自动约束识别提供了丰富的数据资源。该数据集的近期研究主要聚焦于如何通过深度学习技术，提高草图识别的准确度和效率，以及实现不同CAD软件间的迁移学习。这不仅对工业设计自动化有着重要影响，也推动了创意产业中草图到产品原型转化的智能化进程。

以上内容由AI搜集并总结生成

用户留言

有没有相关的论文或文献参考？

这个数据集是基于什么背景创建的？

数据集的作者是谁？

能帮我联系到这个数据集的作者吗？

这个数据集如何下载？

点击留言

数据主题

具身智能

数据集 4098个

机构 8个

大模型

数据集 439个

机构 10个

无人机

数据集 37个

机构 6个

指令微调

数据集 36个

机构 6个

蛋白质结构

数据集 50个

机构 8个

空间智能

数据集 21个

机构 5个

5,000+

优质数据集

54 个

任务类型

进入经典数据集

热门数据集

LFW

人脸数据集;LFW数据集共有13233张人脸图像，每张图像均给出对应的人名，共有5749人，且绝大部分人仅有一张图片。每张图片的尺寸为250X250，绝大部分为彩色图像，但也存在少许黑白人脸图片。 URL: http://vis-www.cs.umass.edu/lfw/index.html#download

AI_Studio 收录

RAVDESS

情感语音和歌曲 (RAVDESS) 的Ryerson视听数据库包含7,356个文件 (总大小: 24.8 GB)。该数据库包含24位专业演员 (12位女性，12位男性)，以中性的北美口音发声两个词汇匹配的陈述。言语包括平静、快乐、悲伤、愤怒、恐惧、惊讶和厌恶的表情，歌曲则包含平静、快乐、悲伤、愤怒和恐惧的情绪。每个表达都是在两个情绪强度水平 (正常，强烈) 下产生的，另外还有一个中性表达。所有条件都有三种模态格式: 纯音频 (16位，48kHz .wav)，音频-视频 (720p H.264，AAC 48kHz，.mp4) 和仅视频 (无声音)。注意，Actor_18没有歌曲文件。

OpenDataLab 收录

Materials Project

材料项目是一组标有不同属性的化合物。数据集链接： MP 2018.6.1（69,239 个材料） MP 2019.4.1（133,420 个材料）

OpenDataLab 收录

Breast Cancer Dataset

该项目专注于清理和转换一个乳腺癌数据集，该数据集最初由卢布尔雅那大学医学中心肿瘤研究所获得。目标是通过应用各种数据转换技术（如分类、编码和二值化）来创建一个可以由数据科学团队用于未来分析的精炼数据集。

github 收录

猫狗图像数据集

该数据集包含猫和狗的图像，每类各12500张。训练集和测试集分别包含10000张和2500张图像，用于模型的训练和评估。

github 收录