five

GeoBiked|自行车技术数据集|工程设计数据集

收藏
arXiv2024-09-25 更新2024-09-27 收录
自行车技术
工程设计
下载链接:
https://anonymous.4open.science/r/GeoBIKED-D12C
下载链接
链接失效反馈
资源简介:
GeoBiked数据集由宝马集团和奥格斯堡大学创建,包含4355张自行车图像,这些图像带有结构和技术特征的注释。数据集旨在支持工程设计中的深度生成模型(DGMs),通过自动化标签技术提高数据标注效率。数据集内容包括19种不同自行车风格的分类、前轮和后轮直径、车架和管尺寸等技术特征,以及12个几何参考点的坐标。创建过程包括从BIKED数据集的4512张图像中筛选和标准化,确保几何一致性。该数据集主要应用于工程设计领域,旨在解决数据驱动设计中的数据稀缺问题,支持模型训练、微调和条件机制的开发。
提供机构:
宝马集团,奥格斯堡大学
创建时间:
2024-09-25
AI搜集汇总
数据集介绍
main_image_url
构建方式
GeoBiked数据集的构建基于BIKED项目,通过视觉检查和几何归一化处理,从原始的4512张自行车图像中筛选出4355张高质量样本。这些图像经过几何特征的标注,包括12个几何参考点,以确保数据集在结构和几何信息上的丰富性和一致性。此外,数据集还通过GPT-4o等视觉语言模型自动生成多样化的文本描述,进一步丰富了数据集的语义信息。
特点
GeoBiked数据集的显著特点在于其高度的结构和几何信息丰富性,适用于深度生成模型在工程设计中的应用。数据集包含了4355张自行车图像,每张图像都标注了12个几何参考点,以及详细的设计和技术特征。此外,通过GPT-4o生成的多样化文本描述,使得数据集在语义层面也具有高度的多样性和准确性。
使用方法
GeoBiked数据集可用于训练和微调深度生成模型,特别是在工程设计领域。用户可以通过该数据集进行模型验证、条件控制机制的开发以及预训练模型的评估。例如,可以训练卷积变分自编码器(VAE)、扩散模型(DDIM)和潜在扩散模型(LDM)等,以生成高质量的结构图像。此外,数据集还可用于评估视觉语言模型在处理技术图像时的理解和描述能力。
背景与挑战
背景概述
GeoBiked数据集由BMW集团和奥格斯堡大学的研究人员于2024年创建,旨在推动工程设计领域中深度生成模型(DGMs)的应用。该数据集包含了4355张自行车图像,并注释了结构和技术特征,旨在解决工程设计中缺乏详细结构和几何信息的数据集问题。GeoBiked不仅填补了这一空白,还通过自动化标签技术,利用大规模基础模型,显著降低了数据标注的门槛,为工程师和设计师提供了进行模型训练、微调、条件机制开发和基准测试的基础数据。
当前挑战
GeoBiked数据集面临的挑战主要集中在两个方面:一是解决工程设计领域中缺乏详细结构和几何信息的数据集问题,这限制了深度生成模型在该领域的应用;二是构建过程中遇到的自动化标签挑战,尽管利用了大规模基础模型,但如何确保标签的准确性和多样性仍然是一个复杂的问题。此外,如何平衡生成描述的创造性和准确性,以及如何优化系统提示以避免模型幻觉,也是当前需要解决的关键问题。
常用场景
经典使用场景
GeoBiked数据集在工程设计领域中被广泛用于深度生成模型(DGMs)的训练与微调。其经典使用场景包括通过图像生成模型检测几何对应关系,如车轮中心位置的识别,以及生成多样化的文本描述以辅助结构图像的分析。这些应用场景不仅提升了模型的几何理解能力,还增强了其在工程设计中的实际应用价值。
衍生相关工作
基于GeoBiked数据集,研究者们开发了多种相关工作,包括利用扩散模型进行几何特征检测和通过视觉语言模型生成文本描述。这些工作不仅验证了基础模型的有效性,还推动了工程设计领域中AI驱动的创新。例如,Luo等人的研究展示了如何利用扩散超特征进行几何对应关系的检测,而GPT-4o的应用则展示了生成多样化文本描述的潜力。
数据集最近研究
最新研究方向
在工程设计领域,GeoBiked数据集的最新研究方向主要集中在利用深度生成模型(DGMs)进行数据驱动的工程设计。研究者们通过整合潜在特征(Hyperfeatures)和自动化标注技术,探索了在几何图像中检测几何对应关系的方法。此外,研究还涉及使用GPT-4o等视觉语言模型(VLM)生成多样化的文本描述,以实现对结构图像的精确控制。这些研究不仅推动了DGMs在工程设计中的应用,还为自动化数据标注和文本生成提供了新的思路,从而在提高设计效率和创新性方面具有重要意义。
相关研究论文
  • 1
    GeoBiked: A Dataset with Geometric Features and Automated Labeling Techniques to Enable Deep Generative Models in Engineering Design宝马集团,奥格斯堡大学 · 2024年
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4099个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

中国1km分辨率逐月降水量数据集(1901-2024)

该数据集为中国逐月降水量数据,空间分辨率为0.0083333°(约1km),时间为1901.1-2024.12。数据格式为NETCDF,即.nc格式。该数据集是根据CRU发布的全球0.5°气候数据集以及WorldClim发布的全球高分辨率气候数据集,通过Delta空间降尺度方案在中国降尺度生成的。并且,使用496个独立气象观测点数据进行验证,验证结果可信。本数据集包含的地理空间范围是全国主要陆地(包含港澳台地区),不含南海岛礁等区域。为了便于存储,数据均为int16型存于nc文件中,降水单位为0.1mm。 nc数据可使用ArcMAP软件打开制图; 并可用Matlab软件进行提取处理,Matlab发布了读入与存储nc文件的函数,读取函数为ncread,切换到nc文件存储文件夹,语句表达为:ncread (‘XXX.nc’,‘var’, [i j t],[leni lenj lent]),其中XXX.nc为文件名,为字符串需要’’;var是从XXX.nc中读取的变量名,为字符串需要’’;i、j、t分别为读取数据的起始行、列、时间,leni、lenj、lent i分别为在行、列、时间维度上读取的长度。这样,研究区内任何地区、任何时间段均可用此函数读取。Matlab的help里面有很多关于nc数据的命令,可查看。数据坐标系统建议使用WGS84。

国家青藏高原科学数据中心 收录

URPC系列数据集, S-URPC2019, UDD

URPC系列数据集包括URPC2017至URPC2020DL,主要用于水下目标的检测和分类。S-URPC2019专注于水下环境的特定检测任务。UDD数据集信息未在README中详细描述。

github 收录

Breast Cancer Dataset

该项目专注于清理和转换一个乳腺癌数据集,该数据集最初由卢布尔雅那大学医学中心肿瘤研究所获得。目标是通过应用各种数据转换技术(如分类、编码和二值化)来创建一个可以由数据科学团队用于未来分析的精炼数据集。

github 收录

中国近海台风路径集合数据集(1945-2024)

1945-2024年度,中国近海台风路径数据集,包含每个台风的真实路径信息、台风强度、气压、中心风速、移动速度、移动方向。 数据源为获取温州台风网(http://www.wztf121.com/)的真实观测路径数据,经过处理整合后形成文件,如使用csv文件需使用文本编辑器打开浏览,否则会出现乱码,如要使用excel查看数据,请使用xlsx的格式。

国家海洋科学数据中心 收录

广州市平均工资情况

该数据集包含了广州市平均工资情况的相关统计数据,并按照国民经济行业、隶属关系、执行会计制度等分类依据展示为更多细分指标。

开放广东 收录