VeRi|车辆重识别数据集|图像识别数据集

github2024-03-15 更新2024-05-31 收录

车辆重识别

图像识别

下载链接：

https://github.com/TongJiL/Vehicle-Re-identification-on-VeRi-dataset

下载链接

链接失效反馈

资源简介：

VeRi数据集包含超过50,000张776辆车辆的图像，这些图像由20台摄像机在24小时内覆盖1.0平方公里区域拍摄，使得该数据集足够大，适用于车辆重识别和其他相关研究。

The VeRi dataset comprises over 50,000 images of 776 vehicles, captured by 20 cameras over a 24-hour period covering an area of 1.0 square kilometers. This extensive dataset is sufficiently large for vehicle re-identification and other related research endeavors.

创建时间：

2019-07-12

原始信息汇总

数据集概述

数据集名称

VeRi 数据集

数据集内容

包含超过50,000张车辆图像
涉及776辆车辆
由20个摄像头在24小时内拍摄
覆盖面积为1.0平方公里

数据集用途

主要用于车辆再识别（Vehicle Re-identification）及相关研究。

数据集获取

如需使用此数据集，请联系VeRi数据集的作者。

数据集训练

训练代码为train_veri.py
数据集预处理代码位于datasets/veri.py
训练命令示例： python train_veri.py --dataset_dir=./VeRi/ --loss_mode=cosine-softmax --log_dir=./output/veri/ --run_id=cosine-softmax
训练结果可通过TensorBoard监控： tensorboard --logdir ./output/veri/cosine-softmax --port 6006

模型导出

用于deep_sort tracker的模型导出命令： python train_veri.py --mode=freeze --restore_path=PATH_TO_CHECKPOINT

AI搜集汇总

数据集介绍

构建方式

VeRi数据集的构建基于大规模车辆监控场景，涵盖了超过50,000张图像，涉及776辆车辆，这些图像由20台摄像机在24小时内于1.0平方公里的区域内捕捉。数据集的构建旨在为车辆重识别（Re-Id）及相关研究提供丰富的视觉数据支持。通过多视角、多时段的采集方式，VeRi数据集能够有效模拟真实世界中的复杂交通环境，为算法训练和验证提供了坚实的基础。

特点

VeRi数据集以其大规模、多样性和复杂性著称。数据集中的车辆图像涵盖了不同的光照条件、视角变化和背景干扰，极大地提升了数据集的挑战性。此外，每辆车辆的多张图像分布在不同时间和空间，使得数据集在车辆重识别任务中具有高度的实用性和研究价值。数据集的多样性和复杂性为开发鲁棒的车辆重识别算法提供了理想的测试平台。

使用方法

使用VeRi数据集进行训练时，首先需将数据集下载至指定目录，随后通过命令行启动训练脚本。训练过程中，用户可选择不同的损失函数模式，如余弦-softmax分类器，并指定日志存储路径。训练完成后，模型可通过TensorBoard进行监控和可视化。此外，训练好的模型可导出为冻结图格式，以便与deep_sort跟踪器集成，实现车辆跟踪与重识别的无缝结合。

背景与挑战

背景概述

VeRi数据集是车辆重识别（Vehicle Re-identification, Re-ID）领域的重要基准数据集，由多个研究机构联合创建，旨在解决车辆在复杂交通环境中的识别与追踪问题。该数据集于2016年发布，包含了超过50,000张图像，涵盖了776辆车辆在20个摄像头下的多视角、多时段拍摄数据，覆盖面积达1.0平方公里。VeRi数据集的构建为车辆重识别、交通监控、智能城市等研究提供了丰富的数据支持，推动了深度学习在车辆识别领域的应用与发展。其多摄像头、多时段的特性使得数据集在真实场景中具有较高的实用性和挑战性，成为该领域研究的重要参考。

当前挑战

VeRi数据集在解决车辆重识别问题时面临多重挑战。首先，车辆的外观在不同摄像头、光照条件和视角下存在显著差异，增加了特征提取与匹配的难度。其次，车辆类内差异较小，例如同一型号的车辆在外观上极为相似，导致区分度不足。此外，数据集中存在大量遮挡、模糊和低分辨率图像，进一步增加了识别任务的复杂性。在数据集构建过程中，研究人员需克服数据采集的时空一致性、标注的准确性以及数据隐私保护等问题。这些挑战不仅考验了算法的鲁棒性，也对数据集的构建质量提出了更高要求。

常用场景

经典使用场景

VeRi数据集在车辆重识别（Vehicle Re-identification）领域具有广泛的应用。该数据集通过多摄像头捕捉的车辆图像，为研究者提供了丰富的视觉信息，使得基于深度学习的车辆重识别模型能够在大规模场景下进行训练和验证。其经典使用场景包括智能交通系统中的车辆追踪、跨摄像头车辆匹配等任务，为城市交通管理和公共安全提供了有力支持。

衍生相关工作

VeRi数据集的发布催生了大量相关研究工作。例如，基于该数据集的深度排序跟踪器（Deep SORT Tracker）在车辆追踪任务中表现出色，成为该领域的经典应用之一。此外，许多研究者利用VeRi数据集提出了新的车辆重识别算法，如基于余弦度量学习的特征提取方法，显著提升了重识别性能。这些工作不仅推动了车辆重识别技术的发展，还为其他计算机视觉任务提供了新的思路和方法。

数据集最近研究

最新研究方向

在智能交通系统领域，车辆重识别（Vehicle Re-identification, Re-ID）技术正逐渐成为研究热点。VeRi数据集作为该领域的重要资源，提供了超过50,000张图像，覆盖了776辆车辆在24小时内由20个摄像头拍摄的数据。这一数据集不仅规模庞大，且具有较高的多样性，为车辆重识别算法的开发与优化提供了坚实的基础。近年来，基于深度学习的车辆重识别方法在VeRi数据集上取得了显著进展，尤其是余弦度量学习（Cosine Metric Learning）技术的引入，使得模型能够更有效地提取车辆特征，提升识别精度。此外，VeRi数据集还被广泛应用于多目标跟踪系统（如Deep SORT）中，进一步推动了智能监控与交通管理技术的发展。随着自动驾驶与智慧城市建设的推进，VeRi数据集及其相关研究将在未来发挥更加重要的作用。

以上内容由AI搜集并总结生成

用户留言

有没有相关的论文或文献参考？

这个数据集是基于什么背景创建的？

数据集的作者是谁？

能帮我联系到这个数据集的作者吗？

这个数据集如何下载？

点击留言

数据主题

具身智能

数据集 4098个

机构 8个

大模型

数据集 439个

机构 10个

无人机

数据集 37个

机构 6个

指令微调

数据集 36个

机构 6个

蛋白质结构

数据集 50个

机构 8个

空间智能

数据集 21个

机构 5个

5,000+

优质数据集

54 个

任务类型

进入经典数据集

热门数据集

中国区域地面气象要素驱动数据集 v2.0（1951-2024）

中国区域地面气象要素驱动数据集（China Meteorological Forcing Data，以下简称 CMFD）是为支撑中国区域陆面、水文、生态等领域研究而研发的一套高精度、高分辨率、长时间序列数据产品。本页面发布的 CMFD 2.0 包含了近地面气温、气压、比湿、全风速、向下短波辐射通量、向下长波辐射通量、降水率等气象要素，时间分辨率为 3 小时，水平空间分辨率为 0.1°，时间长度为 74 年（1951~2024 年），覆盖了 70°E~140°E，15°N~55°N 空间范围内的陆地区域。CMFD 2.0 融合了欧洲中期天气预报中心 ERA5 再分析数据与气象台站观测数据，并在辐射、降水数据产品中集成了采用人工智能技术制作的 ISCCP-ITP-CNN 和 TPHiPr 数据产品，其数据精度较 CMFD 的上一代产品有显著提升。 CMFD 历经十余年的发展，其间发布了多个重要版本。2019 年发布的 CMFD 1.6 是完全采用传统数据融合技术制作的最后一个 CMFD 版本，而本次发布的 CMFD 2.0 则是 CMFD 转向人工智能技术制作的首个版本。此版本与 1.6 版具有相同的时空分辨率和基础变量集，但在其它诸多方面存在大幅改进。除集成了采用人工智能技术制作的辐射和降水数据外，在制作 CMFD 2.0 的过程中，研发团队尽可能采用单一来源的再分析数据作为输入并引入气象台站迁址信息，显著缓解了 CMFD 1.6 中因多源数据拼接和气象台站迁址而产生的虚假气候突变。同时，CMFD 2.0 数据的时间长度从 CMFD 1.6 的 40 年大幅扩展到了 74 年，并将继续向后延伸。CMFD 2.0 的网格空间范围虽然与 CMFD 1.6 相同，但其有效数据扩展到了中国之外，能够更好地支持跨境区域研究。为方便用户使用，CMFD 2.0 还在基础变量集之外提供了若干衍生变量，包括近地面相对湿度、雨雪分离降水产品等。此外，CMFD 2.0 摒弃了 CMFD 1.6 中通过 scale_factor 和 add_offset 参数将实型数据化为整型数据的压缩技术，转而直接将实型数据压缩存储于 NetCDF4 格式文件中，从而消除了用户使用数据时进行解压换算的困扰。本数据集原定版本号为 1.7，但鉴于本数据集从输入数据到研制技术都较上一代数据产品有了大幅的改变，故将其版本号重新定义为 2.0。CMFD 2.0 的数据内容与此前宣传的 CMFD 1.7 基本一致，仅对 1983 年 7 月以后的向下短/长波辐射通量数据进行了更新，以修正其长期趋势存在的问题。

国家青藏高原科学数据中心收录

中国1km分辨率逐月降水量数据集（1901-2024）

该数据集为中国逐月降水量数据，空间分辨率为0.0083333°（约1km），时间为1901.1-2024.12。数据格式为NETCDF，即.nc格式。该数据集是根据CRU发布的全球0.5°气候数据集以及WorldClim发布的全球高分辨率气候数据集，通过Delta空间降尺度方案在中国降尺度生成的。并且，使用496个独立气象观测点数据进行验证，验证结果可信。本数据集包含的地理空间范围是全国主要陆地（包含港澳台地区），不含南海岛礁等区域。为了便于存储，数据均为int16型存于nc文件中，降水单位为0.1mm。 nc数据可使用ArcMAP软件打开制图; 并可用Matlab软件进行提取处理，Matlab发布了读入与存储nc文件的函数，读取函数为ncread，切换到nc文件存储文件夹，语句表达为：ncread (‘XXX.nc’,‘var’, [i j t],[leni lenj lent])，其中XXX.nc为文件名，为字符串需要’’；var是从XXX.nc中读取的变量名，为字符串需要’’；i、j、t分别为读取数据的起始行、列、时间，leni、lenj、lent i分别为在行、列、时间维度上读取的长度。这样，研究区内任何地区、任何时间段均可用此函数读取。Matlab的help里面有很多关于nc数据的命令，可查看。数据坐标系统建议使用WGS84。

国家青藏高原科学数据中心收录

中国近海地形数据集（渤海，黄海，东海，南海）

本数据集包含历年来通过收集和实测方法取得的中国近海水深点数据、地形图数据（ArcGIS格式），以及黄河口、莱州湾东部、辽东湾、山东南部沿海、南海部分海域的单波束、多波束水深测量数据，包括大尺度的低密度水深数据与局部高密度水深数据。

地球大数据科学工程收录

TongueDx Dataset

TongueDx数据集是一个专为远程舌诊研究设计的综合性舌象图像数据集，由香港理工大学和新加坡管理大学的研究团队创建。该数据集包含5109张图像，涵盖了多种环境条件下的舌象，图像通过智能手机和笔记本电脑摄像头采集，具有较高的多样性和代表性。数据集不仅包含舌象图像，还提供了详细的舌面属性标注，如舌色、舌苔厚度等，并附有受试者的年龄、性别等人口统计信息。数据集的创建过程包括图像采集、舌象分割、标准化处理和多标签标注，旨在解决远程医疗中舌诊图像质量不一致的问题。该数据集的应用领域主要集中在远程医疗和中医诊断，旨在通过自动化技术提高舌诊的准确性和可靠性。

arXiv 收录

MedDialog

MedDialog数据集（中文）包含了医生和患者之间的对话（中文）。它有110万个对话和400万个话语。数据还在不断增长，会有更多的对话加入。原始对话来自好大夫网。

github 收录