Genius-Society/tt100k

Name: Genius-Society/tt100k
Creator: Genius-Society
Published: 2026-05-03 08:10:00
License: 暂无描述

Hugging Face2026-05-03 更新2026-05-10 收录

下载链接：

https://hf-mirror.com/datasets/Genius-Society/tt100k

下载链接

链接失效反馈

官方服务：

资源简介：

Tsinghua–Tencent 100K (TT100K) 数据集是一个大规模的交通标志基准数据集，源自 100,000 张腾讯街景图像，包含超过 30,000 个标注实例，涵盖 221 个类别。该数据集专为现实世界中的检测和分类任务设计，具有光照、天气、视角和距离等方面的显著变化。虽然原始研究侧重于使用每类 100 个实例阈值的 45 类子集，但 Ultralytics 配置保留了所有 221 个类别，包括许多样本稀疏的类别，这使得数据集既全面又具有挑战性，适用于稳健的模型开发。

The Tsinghua–Tencent 100K (TT100K) dataset is a large-scale traffic sign benchmark dataset derived from 100,000 Tencent Street View images, containing over 30,000 annotated instances spanning 221 categories. This dataset is specifically designed for real-world detection and classification tasks, featuring significant variations in illumination, weather, viewing angles and distances. While the original research focused on a 45-class subset with a threshold of 100 instances per class, the Ultralytics configuration retains all 221 categories, including many sparsely-sampled categories, which makes the dataset both comprehensive and challenging, suitable for robust model development.

提供机构：

Genius-Society

搜集汇总

数据集介绍

构建方式

TT100K（Tsinghua–Tencent 100K）数据集源自清华大学与腾讯的合作研究，基于十万张腾讯街景图像构建而成。该数据集通过从真实街景中系统性地提取交通标志图像，并辅以人工标注的方式进行精细化处理，最终形成了包含超过三万个标注实例、覆盖221个类别的庞大规模基准。其构建过程注重保留原始图像在光照、天气、视角和距离等多维度的自然变化，使得数据集能够真实反映现实世界中交通标志的复杂呈现状态。

使用方法

使用TT100K数据集时，推荐通过Hugging Face的datasets库进行加载，代码简洁高效。用户可指定'default'配置名称及'train'、'validation'或'test'等不同数据划分，轻松获取包含图像及其对应对象类别与边界框标注的结构化数据。对于需要处理原始文件或进行深度定制的场景，可通过Git LFS克隆仓库至本地，便于离线操作与大规模训练。此外，数据集在ModelScope平台亦设有镜像，便于不同地区的用户访问。

背景与挑战

背景概述

交通标志识别作为自动驾驶与智能交通系统的核心环节，其准确性与鲁棒性直接关乎行车安全。在此背景下，清华大学与腾讯于2016年联合构建了TT100K（Tsinghua-Tencent 100K）数据集，旨在为真实世界的交通标志检测与分类提供大规模基准。该数据集从10万张腾讯街景图像中提取，包含超过3万个标注实例，覆盖221个类别，展现了光照、天气、视角及距离等方面的显著变化，为相关领域的研究提供了极具代表性的数据支撑。TT100K的发布有力推动了交通标志识别技术的发展，成为评估模型复杂场景适应能力的重要标尺。

当前挑战

TT100K数据集所解决的领域问题在于交通标志识别中多尺度、低分辨率及复杂背景的挑战，要求模型具备高精度检测与细粒度分类能力。构建过程中，研究人员面临双重挑战：一是从海量街景图像中高效筛选并精准标注小目标交通标志，尤其是那些稀疏类别；二是应对类别间样本数量不均衡，原始研究聚焦于每类至少100个样本的45个类别，而完整221类别版本包含大量稀缺样本，这给模型的泛化训练与鲁棒性提出了更高要求，也使得数据集的全面利用更富挑战性。

常用场景

经典使用场景

TT100K（Tsinghua–Tencent 100K）数据集是交通标志识别领域的一颗璀璨明珠，源自十万张腾讯街景图像，精心标注了超过三万实例，涵盖221个语义类别。该数据集经典使用场景聚焦于图像分类与目标检测两大核心任务，以其实景图像中光照、天气、视角及距离的剧烈变化著称，为智能驾驶系统在复杂环境下的交通标志感知提供了严苛而全面的训练与评估基准。研究人员常利用该数据集进行多标签分类和细粒度检测实验，尤其关注不同类别间样本不均衡带来的挑战，从而推动模型在真实交通场景中的鲁棒性提升。

解决学术问题

TT100K数据集系统性地解决了交通标志识别研究中两大核心学术问题：其一，真实世界环境中视觉退化现象的建模与克服，包括低光照、运动模糊和部分遮挡等复杂情况对识别精度的影响；其二，长尾分布下稀有类别的有效学习难题，尤其针对那些出现频率不足100次（如pax、pd、pn40等）的罕见标志类型。该数据集的意义在于打破了传统基准局限于理想环境的桎梏，促使学术界重新审视并发展诸如数据增强策略、少样本学习技术及类别平衡算法等关键方法论，其影响已辐射至自动驾驶感知系统鲁棒性评估的多个分支领域。

实际应用

在实际应用层面，TT100K数据集深度赋能了自动驾驶汽车的感知模块开发，特别是在高级驾驶辅助系统（ADAS）中实现实时且精准的交通标志识别。地图导航企业利用该数据集训练模型，以提升街景地图中交通标志的自动提取与更新效率。智能交通管理系统中，该数据集支撑着违章监测和路况分析等场景，通过检测限速、禁行等标志辅助执法。更广泛地，城市基础设施维护团队可借助基于TT100K训练的视觉模型，自动巡检交通标志的完整性，及时发现损坏或褪色的标志，从而保障道路安全。

数据集最近研究