five

UVH-26

收藏
arXiv2025-11-04 更新2025-11-06 收录
下载链接:
https://hf-mirror.com/datasets/iisc-aim/UVH-26
下载链接
链接失效反馈
官方服务:
资源简介:
UVH-26数据集是印度科学学院AIM团队首次公开发布的印度交通监控图像的大规模数据集。该数据集由来自印度班加罗尔约2800个'安全城市'CCTV摄像头的26,646张高分辨率(1080p)图像组成,这些图像在4周时间内采集,并通过一项涉及565名印度各地大学生的众包黑客松活动进行了标注。数据集包含了针对印度14种特定车辆的1.8百万个边界框标注,包括自行车、摩托车、三轮车、轻型商用车、面包车、旅行车、掀背车、轿车、SUV、MUV、小型巴士、巴士、卡车和其他。通过使用多数投票和STAPLE算法,从26,000张图像中的不同对象中导出了约283k-316k个共识真实边界框和标签。此外,使用这些数据集训练了多个当代检测器,包括YOLO11-S/X、RT-DETR-S/X和DAMO-YOLO-T/L,并基于mAP50、mAP75和mAP50:95报告了准确性。UVH-26训练的模型在mAP50:95上实现了约8.4-31.5%的改进,超过了仅在COCO数据集上训练的基线模型。UVH-26通过直接从交通摄像头流中捕捉印度城市交通的异质性,填补了现有全球基准中的关键空白,并为在具有复杂交通状况的新兴国家中推进智能交通系统的检测、分类和部署提供了基础。

The UVH-26 dataset is a large-scale collection of Indian traffic surveillance images, first publicly released by the AIM Team at the Indian Institute of Science. This dataset comprises 26,646 high-resolution (1080p) images sourced from approximately 2,800 "Safe City" CCTV cameras across Bangalore, India. The images were collected over a four-week period and annotated via a crowdsourcing hackathon event involving 565 college students from across India. The dataset contains 1.8 million bounding box annotations for 14 specific vehicle categories in India, including bicycles, motorcycles, three-wheelers, light commercial vehicles, vans, station wagons, hatchbacks, sedans, SUVs, MUVs, minibuses, buses, trucks, and others. Approximately 283k–316k consensus ground-truth bounding boxes and labels were derived for distinct objects across 26,000 images using majority voting and the STAPLE algorithm. Additionally, multiple contemporary object detectors including YOLO11-S/X, RT-DETR-S/X, and DAMO-YOLO-T/L were trained using this dataset, and their accuracy was reported based on mAP50, mAP75, and mAP50:95. Models trained with the UVH-26 dataset achieved an improvement of approximately 8.4% to 31.5% on mAP50:95, outperforming baseline models trained solely on the COCO dataset. The UVH-26 dataset fills a critical gap in existing global benchmarks by capturing the heterogeneity of urban traffic in India directly from traffic camera streams, and provides a foundational resource for advancing detection, classification, and deployment of intelligent transportation systems in emerging nations with complex traffic conditions.
提供机构:
印度科学学院 (Indian Institute of Science, IISc)
创建时间:
2025-11-04
原始信息汇总

UVH-26 数据集概述

数据集基本信息

  • 数据集名称:UVH-26 (Urban Vision Hackathon Dataset)
  • 创建机构:AI for Integrated Mobility (AIM) @ Indian Institute of Science
  • 任务类型:目标检测
  • 子任务:车辆检测
  • 数据规模:10K<n<100K
  • 语言:未确定
  • 标签:计算机视觉、目标检测、交通、车辆、印度、监控摄像头
  • 许可证:CC BY 4.0 International

数据集摘要

UVH-26是由印度科学研究院AIM团队发布的大规模印度特定交通摄像头图像数据集,用于智能交通系统和车辆检测研究。数据集包含:

  • 26,646张高分辨率(1080p)帧图像
  • 采样自班加罗尔约2,800个"安全城市"监控摄像头,覆盖4周时间
  • 通过全国性众包黑客松标注,涉及565名大学生
  • 产生约180万个边界框,涵盖14个细粒度车辆类别

数据集结构

数据集包含两个独立标注集:

  1. UVH-26-MV - 基于多数投票的最终标签
  2. UVH-26-ST - 基于STAPLE算法(期望最大化概率共识方法)的标签

1. UVH-26-Train/

包含UVH-26数据集的80%训练数据:

  • images/ - 训练图像,组织在子文件夹中(000/, 001/, ...)
  • UVH-26-MV-Train.json - 多数投票共识标注(COCO JSON格式)
  • UVH-26-ST-Train.json - STAPLE共识标注(COCO JSON格式)

2. UVH-26-Val/

包含UVH-26数据集的20%验证数据:

  • images/ - 验证图像,组织在子文件夹中(000/, 001/, ...)
  • UVH-26-MV-Val.json - 多数投票共识标注(COCO JSON格式)
  • UVH-26-ST-Val.json - STAPLE共识标注(COCO JSON格式)

车辆类别

ID 类别名称 描述
1 Hatchback 小型乘用车,无突出后行李箱
2 Sedan 乘用车,低底盘设计,有独立突出后行李箱
3 SUV 高离地间隙,坚固车身,无突出行李箱
4 MUV 大型车辆,三排座椅,结合乘客和货物功能
5 Bus 大型客运车辆,用于公共或私人交通
6 Truck 重型货物运输车,前部驾驶室,后部货舱
7 Three-wheeler 紧凑型车辆,前一轮后两轮,有覆盖乘客舱
8 Two-wheeler 摩托车和踏板车,边界框包含车辆和骑手
9 LCV 轻型货物运输车,用于短中距离运输
10 Mini-bus 较短紧凑型巴士,座位较少
11 Tempo-traveller 中型客运货车,高顶和侧窗
12 Bicycle 非机动脚踏车辆,边界框包含车辆和骑手
13 Van 中型车辆,用于运输货物或人员
14 Other 其他类别未涵盖的车辆

数据收集与处理

  • 来源:约2,800个班加罗尔警察运营的"安全城市"监控摄像头
  • 覆盖范围:交叉路口和中段视角,覆盖多个城市区域
  • 选择标准:优先选择车辆密度高、遮挡严重、视角多样的图像

预期用途

  • 构建准确的轻量级边缘部署感知系统,用于智能交通系统
  • 训练和基准测试车辆检测模型

技术论文

The Urban Vision Hackathon Dataset and Models: Towards Image Annotations and Accurate Vision Models for Indian Traffic, Preliminary Dataset Release, UVH-26-v1.0

  • arXiv: 2511.02563, 1234.56789
  • 年份:2025年11月
搜集汇总
数据集介绍
main_image_url
构建方式
在智能交通系统日益依赖精准车辆检测模型的背景下,UVH-26数据集通过创新的众包标注流程构建而成。该数据集从班加罗尔2800个安全城市监控摄像头中采集了26,646张1080p高分辨率交通图像,覆盖4周白天时段。采用模型辅助标注策略,首先基于专家标注的3000张黄金数据集微调RT-DETR-X检测器生成预标注,随后通过游戏化众包平台组织565名大学生志愿者进行边界框验证与修正,最终通过多数投票和STAPLE算法从180万原始标注中萃取出28.3万至31.6万高质量共识标注。
特点
针对印度复杂交通场景的特异性,UVH-26数据集呈现出显著的地域适配特征。其包含14类印度特有车辆细分类别,如三轮车、两轮车和轻型商用车等,精准反映了当地异构交通组成。数据样本源自监控摄像头广角视角,蕴含大量透视变化与遮挡场景,平均每图像包含13个边界框,标注面积均值达46万像素,充分体现了高密度交通的视觉复杂性。该数据集通过双重共识机制保障标注质量,并采用人脸与车牌模糊技术维护隐私合规,为发展中国家智能交通研究提供了珍贵的领域特异性基准。
使用方法
为促进智能交通系统研究,UVH-26数据集提供标准化评估框架。研究者可通过HuggingFace平台获取经多数投票和STAPLE算法处理的两个标注版本,配套发布基于YOLO11、RT-DETR等六大架构的预训练模型。使用时可遵循80/20比例划分训练验证集,采用mAP50:95等标准指标进行性能评估。针对印度特有车辆类别,建议重点考察三轮车、两轮车等本土化类别的检测精度,同时注意与COCO数据集的类别映射差异。该数据集支持直接微调现有检测模型,亦可通过提供的基准模型快速部署到边缘计算平台,助力复杂交通环境下的实时分析应用。
背景与挑战
背景概述
随着智能交通系统在全球范围内的快速发展,车辆检测与分类技术成为支撑交通监控与城市规划的核心支柱。2025年,印度科学研究院的集成移动人工智能团队发布了UVH-26数据集,这是首个针对印度复杂交通场景的大规模公开标注数据集。该数据集采集自班加罗尔2800个安全城市监控摄像头,包含26,646张高分辨率图像,通过涵盖565名学生的众包标注活动,生成了180万边界框标注,覆盖三轮车、轻型商用车等14类印度特色车型。该研究填补了全球数据集中对发展中国家异质化交通表征的空白,为边缘计算平台上的实时检测模型提供了关键训练基础。
当前挑战
在解决印度交通场景的领域挑战方面,传统模型在密集异构交通流中表现不佳,尤其面临车辆高度遮挡、非标准驾驶行为与独特车型混合的识别难题。构建过程中,研究团队需攻克众包标注的质量控制瓶颈:通过模型辅助标注降低人工成本,设计黄金图像嵌入机制评估标注者一致性,并采用多数投票与STAPLE算法处理标注冲突。此外,数据匿名化要求对车牌、人脸进行多尺度模糊处理,而摄像机广角视角带来的透视变形与微小目标检测问题,进一步增加了标注与模型训练的复杂度。
常用场景
经典使用场景
在智能交通系统研究中,UVH-26数据集主要应用于复杂城市交通场景下的车辆检测与分类任务。该数据集通过印度班加罗尔2800个安防摄像头采集的26646张高分辨率图像,覆盖了包括三轮车、两轮车等14种印度特色车型的标注数据。其经典使用场景体现在训练YOLO系列和RT-DETR等目标检测模型时,能够显著提升在密集异构交通环境中的识别精度,特别是在处理非标准驾驶行为和极端车辆密度的场景时表现出色。
衍生相关工作
该数据集催生了多项创新性研究,包括基于多数投票和STAPLE算法的众包标注质量优化方法,以及针对边缘设备的轻量化检测模型部署方案。相关衍生工作还探索了在保持隐私保护的前提下,通过面部和车牌模糊化技术实现公共数据安全共享的范式。这些研究不仅扩展了计算机视觉在智慧城市领域的应用边界,也为新兴国家的交通数字化转型提供了技术蓝图。
数据集最近研究
最新研究方向
在智能交通系统领域,UVH-26数据集作为首个聚焦印度复杂交通场景的大规模标注数据集,正推动计算机视觉模型在异构环境下的适应性研究。前沿方向集中于利用该数据集训练Transformer架构的检测器(如RT-DETR-X),以解决高密度车辆、非标准驾驶行为及本土特有车型(如三轮车、轻型商用车)的识别难题。通过众包标注与多数投票共识算法,该数据集显著提升了模型在监控视角下的泛化能力,其域特异性数据使检测精度较通用基准提升最高达31.5%,为新兴国家智能交通管理提供了关键基础设施。
相关研究论文
  • 1
    The Urban Vision Hackathon Dataset and Models: Towards Image Annotations and Accurate Vision Models for Indian Traffic印度科学学院 (Indian Institute of Science, IISc) · 2025年
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作