TS-1M

github2026-03-26 更新2026-03-27 收录

下载链接：

https://github.com/guoyangzhao/TS1M-Traffic-Sign

下载链接

链接失效反馈

官方服务：

资源简介：

TS-1M是一个用于交通标志理解的大规模数据集和诊断基准，包含超过100万张图像，涵盖454个类别，具有统一的注释和多样化的现实世界条件。它旨在评估模型在跨区域变化、长尾分布和低清晰度场景下的鲁棒性，同时探索语义增强学习的作用。

TS-1M is a large-scale traffic sign understanding dataset and diagnostic benchmark, comprising over 1 million images covering 454 categories, with unified annotations and diverse real-world conditions. It aims to evaluate the robustness of models against cross-regional variations, long-tailed distributions and low-clarity scenarios, while exploring the role of semantic-enhanced learning.

创建时间：

2026-03-17

原始信息汇总

TS-1M 数据集概述

数据集基本信息

数据集名称: TS-1M (Traffic Sign Recognition in Autonomous Driving: Dataset, Benchmark, and Field Testing)
核心内容: 一个用于交通标志理解的大规模数据集和诊断基准。
数据规模: 包含超过 100万张图像，涵盖 454个类别。
数据划分: 训练集约 1,033,947张图像，测试集约 233,611张图像。
数据特点: 具有统一的标注标准，覆盖多样化的真实世界条件，数据分布呈现现实的长尾模式。

数据集设计目标

评估模型鲁棒性: 针对跨区域偏移、长尾分布和低清晰度场景。
探索语义增强学习: 研究语义信息在模型学习中的作用。
验证实际应用价值: 通过集成到真实自动驾驶系统中，验证其在感知和语义推理方面的实用性。

数据集关键特性

统一的大规模数据集: 超过100万张图像，454个类别，提供标准化的标注。
面向模型范式的基准: 在统一协议下系统评估CNN、Transformer、自监督和视觉语言模型。
面向挑战的评估: 设有专门的子集用于跨区域、稀有类别和低清晰度场景的详细鲁棒性分析。
真实世界验证: 与基于VLM的推理和3D地图集成，展示端到端的感知到决策能力。

数据来源与构建

构建方式: 通过整合多个公共数据集和网络收集的样本，构建统一的基准。
处理流程: 采用多阶段预处理流程，包括标签标准化、重复项去除、质量过滤和人工验证。
覆盖范围: 涵盖多个地区和道路环境。

数据获取与使用

下载地址:
- 百度网盘: https://pan.baidu.com/s/1RGk0TLnSgfCjxEGOI-fZXg?pwd=fjsy
- Google Drive: https://drive.google.com/drive/folders/1dmpK4e47-LO04K4gGyhBFgHF5t15fkus?usp=sharing
- Kaggle: https://www.kaggle.com/datasets/guoyangzhao/ts-1m-datset
使用说明: 请参考 class-mapping.txt 文件获取完整的类别定义和类别顺序。
许可: 公开可用于研究和学术用途。

背景与挑战

现实挑战:
- 区域差异: 不同国家的标志外观和标准不同。
- 长尾分布: 许多类别的样本有限。
- 低清晰度条件: 模糊、距离和遮挡会降低视觉质量。
- 语义模糊性: 相似的外观可能意味着不同的含义。
动机: 当前的数据集和评估通常无法捕捉这些复杂性，因此需要一个系统的基准来评估模型在分布偏移、数据不平衡和视觉条件退化下的行为。

搜集汇总

数据集介绍

构建方式

在自动驾驶领域，交通标志识别是保障行车安全与导航决策的关键环节。TS-1M数据集的构建采用了系统化的集成与标准化流程，通过汇聚多个公开数据集及网络采集样本，将其统一至涵盖454个类别的分类体系。构建过程包含多阶段预处理，涉及标签规范化、重复数据剔除、质量筛选以及人工核验，最终形成包含约126万张图像的大规模集合，其中103万用于训练，23万用于测试，数据分布遵循现实世界中的长尾模式。

使用方法

研究人员可通过百度网盘、Google Drive或Kaggle平台获取TS-1M数据集。使用前需参考`class-mapping.txt`文件以明确类别定义与顺序。该数据集适用于多种模型范式的评估，包括经典卷积网络、Transformer架构、自监督预训练模型以及视觉-语言模型。用户可依据统一的评估协议，在完整数据集或特定挑战子集上进行训练与测试，以全面分析模型在跨区域泛化、长尾分类及低质量图像识别等任务上的性能。数据集亦支持与视觉语言模型结合，用于语义理解与三维地图构建等高级应用场景。

背景与挑战

背景概述

在自动驾驶技术迅猛发展的背景下，交通标志识别作为环境感知与决策规划的关键环节，其精准性与鲁棒性直接关系到行车安全与系统可靠性。TS-1M数据集由Guoyang Zhao等研究人员于2025年构建并发布，旨在应对现有基准在真实世界泛化能力评估上的不足。该数据集整合了全球多区域公开数据与网络采集样本，构建了涵盖454个类别、超过126万张图像的大规模统一基准，其核心研究问题聚焦于模型在跨区域分布偏移、长尾数据分布及低清晰度场景下的鲁棒性评估。通过引入语义增强学习与真实系统集成验证，TS-1M为推进自动驾驶感知系统的实用化部署提供了重要的数据基础与评估框架，对计算机视觉与机器人领域的交叉研究产生了显著影响。

当前挑战

TS-1M数据集致力于解决交通标志识别领域在真实复杂环境中模型泛化能力不足的核心挑战。具体而言，其应对的领域挑战包括：模型需克服不同国家与地区交通标志在外观、标准和语义上的区域性变异；处理数据中普遍存在的长尾分布问题，即大量稀有类别样本匮乏；在模糊、远距离、遮挡等低清晰度条件下保持识别稳定性；以及辨析视觉相似但语义不同的标志所引发的歧义性。在数据集构建过程中，研究团队面临多重挑战：需将来源各异、标注标准不一的多个数据集进行整合与归一化，建立涵盖全球454个类别的统一分类体系；实施多阶段数据清洗流程，包括去重、质量过滤与人工校验，以确保数据的一致性与可靠性；同时，还需在规模扩展与质量控制之间取得平衡，以构建既具代表性又便于模型训练与评估的基准资源。

常用场景

经典使用场景

在自动驾驶的感知系统中，交通标志识别是保障行车安全与合规导航的核心任务。TS-1M数据集凭借其涵盖全球454个类别、超过一百万张图像的庞大规模，为模型训练与评估提供了前所未有的丰富素材。该数据集最经典的使用场景在于系统性地评测各类视觉模型——包括卷积神经网络、Transformer架构、自监督学习模型以及视觉-语言模型——在统一协议下的识别性能。研究者通过其构建的标准化基准，能够深入探究模型在跨区域迁移、长尾分布以及低清晰度等复杂现实条件下的鲁棒性，从而推动交通标志识别技术向更可靠、更泛化的方向发展。

解决学术问题

TS-1M数据集致力于解决交通标志识别领域长期存在的若干关键学术问题。其通过整合多地区数据并构建统一标注体系，有效应对了模型因区域差异导致的泛化能力不足问题。数据集内嵌的长尾分布特性，为研究稀有类别识别与数据不平衡学习提供了天然实验场。同时，专门设计的低清晰度与语义模糊子集，促使学界关注视觉质量退化与语义歧义场景下的模型稳健性。这些努力共同弥合了实验室性能与真实世界部署之间的鸿沟，为评估与提升自动驾驶感知系统的实际可靠性奠定了坚实的实证基础。

实际应用

TS-1M数据集的价值在自动驾驶系统的实际部署中得到充分彰显。该数据集不仅服务于离线模型训练与评测，更被集成到真实的自动驾驶平台中，用于验证端到端的感知与语义推理链路。例如，基于TS-1M训练的模型能够结合视觉语言模型进行高级语义理解，并将识别结果映射到高精地图中，为车辆的路径规划与决策制定提供关键依据。这种从纯视觉识别到场景理解、再到系统决策的全流程验证，显著提升了自动驾驶车辆在不同地域、复杂路况下的环境感知与交互能力，推动了技术从研究向产业应用的转化。

数据集最近研究

TS-1M

TS-1M 数据集概述

数据集基本信息

数据集设计目标

数据集关键特性

数据来源与构建

数据获取与使用

相关研究

背景与挑战