five

Synset-Signset-Germany

收藏
Hugging Face2026-03-11 更新2026-03-12 收录
下载链接:
https://huggingface.co/datasets/FraunhoferIOSB/Synset-Signset-Germany
下载链接
链接失效反馈
官方服务:
资源简介:
Synset Signset Germany 是一个用于德国交通标志识别任务的合成数据集,包含 105,500 张图像,涵盖 211 种不同的德国交通标志类别,包括 2020 年新发布的较为罕见的交通标志。数据集旨在成为知名 GTSRB 数据集的“合成孪生”版本,适用于比较真实世界和合成数据。数据集通过 Fraunhofer 的 OCTAS® 仿真平台生成,结合了数据驱动和分析建模方法的优势,使用 GAN 生成纹理和物理准确的场景调制。每张图像均包含原始图像、语义分割图像、掩码图像以及丰富的元数据,如交通标志状态、环境参数和成像效果。数据集提供两种渲染变体(OGRE 和 Cycles),并包含训练和验证分割。适用于交通标志识别模型的训练、合成与真实数据的对比分析,以及可解释性 AI(XAI)和鲁棒性测试。数据集采用 CC-BY 4.0 许可,明确禁止用于高风险应用。
创建时间:
2026-03-03
原始信息汇总

Synset Signset Germany 数据集概述

数据集基本信息

  • 数据集名称: Synset Signset Germany
  • 创建者: Anne Sielemann, Lena Lörcher, Max-Lion Schumacher, Stefan Wolf, Masoud Roschani, Jens Ziehn, Juergen Beyerer
  • 所属机构: Fraunhofer IOSB 和 Fraunhofer IPA, Germany
  • 发布日期: 2024年
  • 许可证: CC-BY 4.0
  • 语言: 英语
  • 任务类别: 图像分类、图像分割
  • 标签: 交通标志识别、合成数据、Synset、OCTAS
  • 数据规模: 100K < n < 1M

数据集描述

Synset Signset Germany 是一个为德国交通标志识别任务设计的合成数据集。它包含总计 105,500 张图像,涵盖 211 个不同的德国交通标志类别,其中包括新发布(2020年)且相对罕见的交通标志。数据集中的前 43 个类别子集旨在作为知名数据集 German Traffic Sign Recognition Benchmark (GTSRB) 的“合成孪生”版本,因此非常适合用于比较真实世界数据和合成数据。得益于丰富的元数据,该数据集也可用于可解释人工智能(XAI)或鲁棒性分析和系统测试等应用场景。

数据集内容与结构

  • 图像总数: 105,500 张 RGB 图像
  • 类别数量: 211 个德国交通标志类别
  • 每类图像数: 500 张
  • 渲染引擎: 提供两个配置版本
    • Cycles: 使用路径追踪引擎 Cycles 渲染
    • OGRE: 使用光栅化引擎 OGRE 渲染
  • 数据分割: 每个配置均提供训练集和验证集分割
  • 数据文件格式: Parquet
  • 伴随数据: 每张渲染图像包含原始图像、语义分割图像、掩码图像以及详细的元数据。元数据涵盖交通标志状态(方向、上方标志、下方标志等)、环境(白天、对比度、位置等)和成像效果(噪声水平、运动模糊强度、自动曝光控制误差等)。

数据集创建

  • 生成方法: 基于 Fraunhofer 仿真平台 OCTAS®,遵循物理渲染框架。结合了数据驱动和分析建模方法的优点:采用基于 GAN 的纹理生成来产生数据驱动的污垢和磨损伪影,从而生成独特且逼真的交通标志表面;同时,分析性场景调制确保了物理上准确的照明和适当的几何变换,并支持对渲染场景进行细粒度参数化。
  • 源数据:
    • 交通标志模板图像来源于维基百科的德国交通标志图集。
    • 基于图像的照明使用了来自 PolyHaven 的 327 张环境贴图。
    • 作为遮挡物的 3D 树木几何体源自 PolyHaven。
  • 标注过程: 大部分标注(包括掩码、分割图像、相机参数、伪影和环境条件)基于场景生成/渲染过程中创建的真实数据。语义分割图像使用 OGRE 渲染引擎插件生成。唯一的手动标注是根据德国交通法规和真实世界示例,对允许的上方和下方标志进行标记。

主要用途

  • 直接用途:
    • 训练用于德国交通标志识别任务的机器学习模型。
    • 分析合成数据集与真实世界交通标志识别数据集(尤其是密切相关的 GTSRB 数据集)之间的差异。
    • 利用每张图像的详细元数据测试交通标志识别任务的机器学习模型。
  • 范围外用途: 不建议将本数据集用于关键应用,特别是欧洲《人工智能法案》附件 III 中规定的高风险应用(包括“用于自然人的‘实时’和‘事后’远程生物识别识别的 AI 系统”和“旨在用作道路交通管理和运营中安全组件的 AI 系统”),除非已对该数据集的适用性进行详尽研究。

局限性与注意事项

  • 交通标志: 磨损生成仅限于颜色褪色、划痕、螺丝孔和贴纸残留等伪影。不包括复杂的贴纸、涂鸦或污垢。未包含逆反射图案,也未模拟逆反射。交通标志仅安装在金属标志杆上。
  • 环境: 环境变化不包括恶劣天气条件(雪、雨滴、雾等)。
  • 遮挡: 所有包含的遮挡或阴影均来自单一的 3D 树木几何体。
  • 相机: 仅使用一组相机内参,仅模拟一种相机镜头类型(基于 Tamron M112FM35 35 mm 镜头)。可以假设所模拟的成像伪影集并不完整。
  • 推荐: 建议主要将数据集用于科学研究。应用于实际用例时应包含人工监督,并详尽评估其对特定目的的适用性,包括域偏移的影响。

引用信息

  • 论文标题: Synset Signset Germany: A Synthetic Dataset for German Traffic Sign Recognition

  • 会议: 2024 IEEE 27th International Conference on Intelligent Transportation Systems (ITSC)

  • BibTeX:

    @inproceedings{synset_signset_ger_sielemann_2024, title={{Synset Signset Germany: A Synthetic Dataset for German Traffic Sign Recognition}}, author={Sielemann, Anne and Loercher, Lena and Schumacher, Max-Lion and Wolf, Stefan and Roschani, Masoud and Ziehn, Jens and Beyerer, Juergen}, booktitle={2024 IEEE 27th International Conference on Intelligent Transportation Systems (ITSC)}, year={2024} }

  • APA: Sielemann, A., Loercher, L., Schumacher, M., Wolf, S., Roschani, M., Ziehn, J., and Beyerer, J. (2024). Synset Signset Germany: A Synthetic Dataset for German Traffic Sign Recognition. In 2024 IEEE 27th International Conference on Intelligent Transportation Systems (ITSC).

相关链接

  • 数据集官网: https://synset.de/datasets/synset-signset-ger/
  • 论文链接: https://ieeexplore.ieee.org/abstract/document/10920175
  • arXiv 链接: https://arxiv.org/abs/2512.05936
  • GTSRB 子集: https://huggingface.co/datasets/FraunhoferIOSB/Synset-Signset-Germany-GTSRB-Subset
  • 许可证链接: https://creativecommons.org/licenses/by/4.0/

资助方

  • Fraunhofer 内部项目,资助号 PREPARE 40-02702,属于 ML4Safety 项目。
  • 德国联邦经济事务和气候行动部,在“新车辆和系统技术”计划内,属于 AVEAS 研究项目的一部分。

联系方式

  • Anne Sielemann: anne.sielemann@iosb.fraunhofer.de
  • Jens Ziehn: jens.ziehn@iosb.fraunhofer.de
  • 机构网址: https://www.iosb.fraunhofer.de
搜集汇总
数据集介绍
构建方式
在交通标志识别领域,合成数据集的构建正成为弥补真实数据稀缺性的关键途径。Synset Signset Germany数据集依托弗劳恩霍夫仿真平台OCTAS®,采用物理渲染框架生成。该方法融合了数据驱动与解析建模的优势:利用生成对抗网络合成具有污损和磨损特征的逼真纹理,同时通过解析场景调制确保光照与几何变换的物理精确性。数据集涵盖211类德国交通标志,每类提供500张图像,总计105,500张独立样本,并分别通过OGRE光栅化引擎与Cycles路径追踪引擎渲染,辅以逐样本掩码、分割图像及丰富的场景参数元数据。
使用方法
该数据集主要服务于德国交通标志识别任务的研究与应用。用户可直接将其用于机器学习模型的训练,特别是通过其与GTSRB数据集的对应关系,深入探究合成数据与真实数据在模型性能上的差异。丰富的元数据支持对模型进行细粒度测试,例如在不同光照、噪声或运动模糊条件下评估模型鲁棒性。数据集提供了OGRE与Cycles两种渲染变体及预设的训练与验证划分,研究者可根据需要选择配置,并应遵循CC-BY 4.0许可规范进行使用与引用。
背景与挑战
背景概述
在智能交通系统与自动驾驶技术蓬勃发展的背景下,高精度交通标志识别成为保障道路安全与实现环境感知的核心环节。Synset-Signset-Germany数据集由德国弗劳恩霍夫协会IOSB与IPA研究所的研究团队于2024年正式发布,旨在为德国交通标志识别任务提供大规模合成数据资源。该数据集涵盖211类德国交通标志,包含总计105,500张图像,特别整合了2020年新颁布的稀有标志类别,并构建了与经典真实数据集GTSRB对应的43类“合成孪生”子集。通过融合基于物理的渲染技术与生成对抗网络纹理合成方法,该数据集在可控场景参数下生成了兼具真实感与丰富元数据的图像,为模型训练、可解释性人工智能分析以及鲁棒性测试提供了重要基础。
当前挑战
交通标志识别领域长期面临真实数据标注成本高昂、罕见场景覆盖不足以及环境多样性模拟困难等核心挑战。Synset-Signset-Germany数据集在构建过程中,需精确模拟德国交通标志的视觉特征与复杂环境条件,包括光照变化、部分遮挡及表面磨损等细节。然而,合成数据与真实世界之间仍存在域差距,例如数据集中未纳入极端天气条件、复杂涂鸦或反光材质等现实因素,可能影响模型在真实场景中的泛化能力。此外,数据生成依赖有限的环境贴图与几何模型,成像参数设置较为单一,这些局限性要求研究者在应用于高风险场景时需结合领域适应技术与严格评估。
常用场景
经典使用场景
在自动驾驶与智能交通系统领域,Synset-Signset-Germany数据集为德国交通标志识别任务提供了关键支持。该数据集通过物理渲染技术生成了涵盖211类德国交通标志的合成图像,其中包含2020年新颁布的罕见标志,其经典使用场景在于为机器学习模型提供大规模、多样化的训练数据。研究人员可利用该数据集构建和优化交通标志分类与分割模型,特别是在模拟环境与真实世界数据之间进行对比分析,例如与著名的GTSRB数据集进行性能比较,从而评估合成数据在模型训练中的有效性。
解决学术问题
该数据集有效解决了交通标志识别研究中数据稀缺与标注成本高昂的学术难题。通过提供包含精细元数据(如环境光照、成像伪影、遮挡参数)的合成样本,它支持可解释人工智能与模型鲁棒性分析等前沿研究方向。数据集特别关注了新兴交通标志类别的覆盖,弥补了现有公开数据集中罕见类别样本不足的缺陷,为研究领域注入了新的数据资源,推动了合成数据在计算机视觉任务中的理论探索与应用验证。
实际应用
在实际应用层面,Synset-Signset-Germany数据集为高级驾驶辅助系统与自动化驾驶技术的开发提供了重要数据基础。工程团队可借助该数据集训练和测试车载视觉系统,提升其在复杂光照、部分遮挡及磨损条件下的标志识别准确率。同时,数据集支持的模型鲁棒性评估有助于确保自动驾驶系统在多样化道路环境中的安全性与可靠性,为符合欧洲人工智能法案要求的系统验证提供了可扩展的数据解决方案。
数据集最近研究
最新研究方向
在自动驾驶与智能交通系统领域,合成数据生成技术正成为解决真实世界数据稀缺与标注成本高昂的关键途径。Synset Signset Germany数据集凭借其基于物理渲染框架OCTAS®的生成方法,融合生成对抗网络纹理合成与解析场景调制,为德国交通标志识别提供了高保真且富含元数据的合成样本。该数据集不仅作为经典GTSRB基准的“合成孪生体”,支撑了合成与真实数据对比研究,更因其细致的场景参数标注,成为可解释人工智能与模型鲁棒性分析的前沿工具。近期研究聚焦于利用其多层次元数据探索域适应策略、对抗性测试以及在新颁布交通标志上的零样本学习能力,旨在提升自动驾驶系统在复杂环境下的泛化性能与安全合规性。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作