Multiview ReID + Visual Attributes

github2025-06-05 更新2025-06-17 收录

下载链接：

https://github.com/AdonaiVera/openset-reid-finetune

下载链接

链接失效反馈

官方服务：

资源简介：

一个基于Market-1501的精心策划、属性丰富的人员重新识别数据集，包含多视角图像、详细的物理和服装属性、自然语言描述以及全局属性整合。

A meticulously curated, attribute-rich person re-identification dataset based on the Market-1501, which includes multi-view images, detailed physical and clothing attributes, natural language descriptions, and global attribute integration.

创建时间：

2025-06-01

原始信息汇总

数据集概述：SigLIP Person Finder + Multi-view ReID Dataset

数据集简介

一个基于自然语言描述和丰富语义属性的开放集人物搜索系统，包含一个经过增强的多视角ReID数据集。

数据集来源

基础数据集：Market-1501
增强方式：添加详细属性和自然语言描述

数据集特点

多视角图像
详细的物理和服装属性
自然语言描述
全局属性整合

数据集统计

子集	样本数
训练集	3,181
评估集	1,726
测试集	1,548
总计	6,455

数据集结构

每个样本包含以下信息：

filepath: 图像路径
person_id: 人物ID
camera_id: 摄像头ID
tags: ["train", "query", "gallery"]之一
attributes: 包含性别、年龄、外貌、服装等属性
description: 自然语言描述

数据集创建流程

基础数据集准备：使用Market-1501
去重：使用DINOv2嵌入识别并移除近似重复样本
属性生成：使用Google Gemini Vision自动生成
多视角合并：跨视角整合属性

应用场景

人物重识别基准测试
多视角属性一致性研究
基于自然语言的人物搜索
属性条件检索系统

限制与伦理考虑

可能存在基础数据集的人口统计或收集偏差
所有属性描述均为AI生成，可能存在错误
不适合直接用于现实世界监控或执法场景

引用

bash @inproceedings{zheng2015scalable, title={Scalable Person Re-identification: A Benchmark}, author={Zheng, Liang and Shen, Liyue and Tian, Lu and Wang, Shengjin and Wang, Jingdong and Tian, Qi}, booktitle={Proceedings of the IEEE International Conference on Computer Vision (ICCV)}, pages={1116--1124}, year={2015} }

搜集汇总

数据集介绍

构建方式

该数据集以Market-1501为基础框架，通过多阶段流程构建而成。首先采用DINOv2嵌入向量进行去重处理，消除视觉相似样本；继而利用Gemini Vision多模态模型自动生成包括外貌特征、服饰细节在内的结构化属性标注；最终通过跨视角属性融合技术，确保同一身份在不同摄像机视角下的描述一致性。数据集构建过程特别注重语义丰富性，每个样本均附有自然语言描述，形成多模态数据表征。

使用方法

该数据集支持端到端的多模态研究流程。用户可通过Hugging Face平台直接加载预处理版本，或使用原始图像配合标注文件进行自定义实验。典型应用场景包括：基于余弦相似度的图文跨模态检索、多视角属性一致性分析、以及结合SigLIP等视觉语言模型的微调实验。配套代码库提供完整的处理流水线，涵盖YOLOv8检测、SigLIP特征提取和跟踪优化模块，用户可通过调整相似度阈值平衡检索精度与召回率。对于视频分析任务，系统默认采用30帧间隔的特征复用策略以优化计算效率。

背景与挑战

背景概述

Multiview ReID + Visual Attributes数据集是基于Market-1501数据集构建的，旨在通过丰富的视觉属性和自然语言描述增强行人重识别任务的研究。该数据集由AdonaiVera团队主导开发，结合了多视角图像、详细物理和服装属性以及自然语言描述，为行人重识别领域提供了更为全面的数据支持。Market-1501作为其基础数据集，最初发布于2015年，由Liang Zheng等人提出，已成为行人重识别领域的基准数据集之一。Multiview ReID + Visual Attributes通过引入Gemini Vision生成的属性描述和SigLIP模型的嵌入能力，进一步推动了自然语言检索和多视角一致性研究的发展。

当前挑战

Multiview ReID + Visual Attributes数据集在构建和应用过程中面临多重挑战。在领域问题方面，行人重识别任务本身存在视角变化、光照条件差异和遮挡等复杂场景的挑战，而该数据集通过多视角图像和丰富属性描述试图缓解这些问题。然而，数据集中AI生成的属性描述可能存在幻觉或不确定性，影响模型的可靠性。在构建过程中，团队需处理Market-1501数据集中潜在的重复样本问题，并利用DINOv2嵌入技术进行去重。此外，多视角属性的合并与一致性验证也增加了数据集的构建难度。实时性要求进一步加剧了挑战，特别是在视频检索场景下，需平衡计算效率与检索精度。

常用场景

经典使用场景

在计算机视觉领域，多视角行人重识别（ReID）一直是研究热点。Multiview ReID + Visual Attributes数据集通过整合Market-1501基础数据并增强语义属性，为研究者提供了丰富的多视角行人图像及详细属性标注。该数据集最经典的使用场景是开发基于自然语言描述的行人检索系统，研究者可利用文本提示在多摄像头监控画面中快速定位特定衣着特征的目标人物。

解决学术问题

该数据集有效解决了传统封闭集行人重识别系统泛化能力不足的瓶颈问题。通过引入细粒度视觉属性和自然语言描述，支持开放集条件下的跨模态检索，显著提升了模型对衣着变化、视角差异等现实挑战的鲁棒性。其多视角属性一致性标注更为跨摄像头行人特征关联研究提供了可靠基准。

实际应用

在智慧城市建设和零售分析领域，该数据集支撑的系统可实现自然语言驱动的实时行人追踪。商场安防人员可通过'寻找穿红色外套背黑色双肩包的男性'等语义查询，快速定位目标在监控网络中的运动轨迹。其优化的跟踪算法框架确保在30FPS视频流中保持实时性能，大幅降低计算冗余。

数据集最近研究