Urban-ImageNet

Hugging Face2026-05-08 更新2026-05-09 收录

下载链接：

https://huggingface.co/datasets/Yiwei-Ou/Urban-ImageNet

下载链接

链接失效反馈

官方服务：

资源简介：

Urban-ImageNet是一个用于城市商业空间感知的大规模多模态数据集和基准测试集，包含从24个中国城市的61个商业地点收集的超过200万条公开微博图文对（2019-2025年）。数据集采用HUSIC分类体系（10类城市商业图像框架）组织，支持三个基准任务：1) 城市场景语义分类；2) 跨模态图文检索；3) 实例分割。发布版本包含1K、10K和100K的平衡子集（用于可复现基准测试）以及完整的200万非平衡全集（用于大规模训练和扩展行为研究）。所有图像均经过隐私保护处理（人脸模糊、512px长边限制）和元数据匿名化。数据集适用于城市感知、计算城市研究、多模态学习等非商业学术研究，但存在中国中心性、社交媒体偏差和类别不平衡等局限性。

创建时间：

2026-05-03

原始信息汇总

Urban-ImageNet 数据集概述

基本信息

许可证：CC BY-NC 4.0（非商业学术用途）
数据集规模：超过200万条微博图文对
数据来源：2019–2025年间来自24个中国城市、61个商业场所的公开微博内容
语言：中文、英文
任务类型：图像分类、图像到文本、文本到图像、零样本图像分类、图像分割
标签：城市感知、社交媒体、微博、图像文本检索、实例分割、计算城市研究、中国城市

数据集结构与版本

变体	图像数量	类别平衡	预定义划分	用途
1K 数据集	1,000	每类100张	train/val/test	快速测试、演示、调试
10K 数据集	10,000	每类1,000张	train/val/test	中等规模实验
100K 数据集	100,000	每类10,000张	train/val/test	主要基准划分
完整数据集-2M	200万+	自然不平衡分布	无预定义划分	大规模训练和自定义划分

所有公开图像均已进行隐私保护，最长边缩放至512像素。

HUSIC 类别体系（10类）

ID	类别标签	分组	含义
0	有人的外部城市空间	外部	可见人类存在的户外商业空间
1	无人的外部城市空间	外部	无人的户外建筑或公共空间景观
2	有人的内部城市空间	内部	有购物者、工作人员或居住者的商业室内空间
3	无人的内部城市空间	内部	聚焦设计或流线的商业室内空间
4	酒店或商业住宿空间	住宿	酒店房间和商业住宿环境
5	私人住宅室内	住宿	城市语料中的私人住宅室内空间
6	食品或饮料物品	消费	食物、饮品、餐桌场景和餐厅内容
7	零售产品和商品	消费	产品、商品、零售货架和展示橱窗
8	以人为中心的肖像	肖像	自拍、合影和以肖像为主的图像
9	其他非空间内容	杂项	广告、截图、表情包、地图、动物等

三项基准任务

T1：城市场景语义分类

使用 01 Images with labels 文件夹，按 train/{类别名}/{图像文件名}.jpg 结构组织
文件夹名称即为真实标签

T2：跨模态图像文本检索

使用 02 Text-Image Pairs Excel 文件，通过 Image Filename 列与图像文件关联
保留原始中文微博文本，避免翻译失真

两种检索设置：

设置	文本查询	真实标签	说明
T2-A 类别级检索	HUSIC 类别标签文本	具有相同 `Image Label` 的图像	较简单的结构化语义对齐
T2-B 帖子级检索	原始中文 `Post Text`	同一帖子附带的图像	更困难，一对多关系

文本-图像对列说明：

列名	描述	任务角色
Image Label	HUSIC 类别标签	T1 标签和 T2 类别级文本
Image Filename	连接键	连接键
Post ID	匿名化帖子标识符	元数据
User ID	匿名化用户标识符	元数据
Post Time	原始发帖时间戳	元数据
Post Text	原始中文微博文本	T2 帖子级文本
City	位置标签关联的城市	元数据
Place Tag	位置标签或场所标签	元数据

T3：实例分割

使用 03 Instance Segmentation COCO 格式 JSON 文件
包含10个HUSIC类别的标注信息
伪标签由 Grounding DINO 和 SAM2 生成，非人工像素级标注

隐私与合规

原始用户名和账户名已移除
人脸、车牌、二维码区域等已模糊处理
图像缩放至最长边512像素
原始高分辨率语料库（超过4TB）未公开
禁止用于重新识别、人脸识别、监控、社交评分、执法等用途

局限性与偏差

语料库以中国为中心，不具全球代表性
微博用户不能代表所有城市用户
社交媒体图像过度代表美观、流行和个人有意义的场景
帖子文本为原始中文社交媒体语言，包含俚语和标签
完整2M语料库存在类别不平衡
100K及以下子集为平衡版本，不反映自然类别频率
T3掩码为模型生成的伪标签

引用信息

bibtex @misc{urbanimagenet2026, title = {Urban-ImageNet: A Large-Scale Multi-Modal Dataset for Urban Space Perception Benchmarking}, author = {Urban-ImageNet Research Team}, year = {2026}, note = {Dataset and benchmark for NeurIPS 2026 Evaluations and Datasets Track} }

搜集汇总

数据集介绍

构建方式

Urban-ImageNet是一个大规模多模态数据集，专为城市商业空间感知研究而构建。该数据集从2019年至2025年间，采集自中国24个城市61个商业地点的超过200万条公开微博图像-文本对。数据集的分类体系采用HUSIC框架，包含10类城市商业影像类别，覆盖外部空间、内部空间、住宿、消费、肖像及其他非空间内容。为满足不同规模实验需求，提供了1K、10K和100K的平衡子集，以及包含全部200万样本的非平衡全集。所有图像均经过隐私保护处理，最长边统一缩放至512像素，并按照任务类型组织为语义分类、图文检索和实例分割三个基准任务。

特点

该数据集的核心特色在于其多模态、多任务与大规模特性。它同时支持图像分类、跨模态图文检索与实例分割三类任务，且每个任务均采用相同的HUSIC分类体系，确保任务间可协同研究。图文检索任务细分为类别级和帖子级两种匹配设置，后者考虑到一条帖子可能对应多张图像，采用多正例评估策略，更贴近社交媒体实际场景。实例分割标签由Grounding DINO与SAM2自动生成，借助类别专用提示词库得到高质量伪标签。数据集平衡子集确保了基准测试的公平性，而非平衡全集则可用于研究数据规模扩展行为。

使用方法

使用该数据集时，可根据研究目标选择相应子集及任务。语义分类任务可直接使用ImageFolder格式的图像目录，类别名称即为标签。图文检索任务需利用Excel文件中的图像文件名与帖子文本进行关联，支持从图像到文本或从文本到图像的双向检索。实例分割任务采用COCO格式的JSON标注文件，包含类别、边界框及分割掩码信息。用户可灵活组合不同子集与任务，例如基于平衡子集进行模型评估，再迁移至非平衡全集进行大规模训练。数据集的预定义划分确保实验结果可重复，适用于城市感知计算、多模态学习等领域的非商业学术研究。

背景与挑战

背景概述

Urban-ImageNet是由一支研究团队于2026年创建的大规模多模态数据集，旨在推动城市商业空间感知的量化研究。该数据集源自2019至2025年间中国24座城市61个商业地点的社交媒体平台新浪微博，收集了超过200万条公开的图文配对内容。其核心研究问题聚焦于如何利用多模态数据对城市商业空间进行语义分类、跨模态检索与实例分割，从而为计算城市科学提供标准化的基准。数据集的问世填补了城市感知领域缺乏大规模、多模态、标注精细的公开数据集的空白，对城市计算、计算机视觉与多模态学习等交叉领域产生了深远影响，尤其为理解城市商业空间布局与用户行为模式提供了关键数据支撑。

当前挑战

该数据集所应对的领域挑战在于：城市商业空间感知研究长期受限于数据稀疏与标注缺失，传统方法难以高效解析社交媒体图像中复杂的语义场景与跨模态关联。构建过程中面临多重挑战：首先，从海量社交媒体数据中筛选出与商业空间相关的内容，需在保证隐私保护的前提下进行大规模清洗与脱敏处理；其次，多模态数据中的图文关联松散，部分文本描述与图像内容并非严格对应，增加了标注与检索的难度；此外，构建涵盖10个细粒度类别的分层分类体系（HUSIC），并确保不同子集在类别平衡与规模上满足基准测试需求，涉及复杂的采样策略与质量控制；最后，实例分割任务需依赖跨模型协作生成伪标签，其精度与一致性在规模化应用中面临挑战。

常用场景

经典使用场景

Urban-ImageNet作为面向城市商业空间感知的大规模多模态基准数据集，经典使用场景聚焦于三大核心任务：城市场景语义分类、跨模态图文检索与实例分割。研究者可利用其提供的分层平衡子集（1K/10K/100K）与非平衡全量版本（2M），在统一的HUSIC十类分类框架下，系统性地评估和比较不同模型在城市场景理解中的表现。该数据集特别适合探索社交图像与文本之间的语义对齐关系，以及在真实城市商业环境中进行细粒度空间内容的识别与定位。

衍生相关工作

Urban-ImageNet的发布催生了一系列富有影响力的衍生研究工作。在方法层面，研究人员基于其多模态对齐特性，设计了针对社交图文弱监督关系的跨模态对比学习框架，显著提升了在城市场景下的检索精度；在理论层面，有工作利用其HUSIC分类体系，验证了城市商业空间感知在视觉与文本模态间存在层级化的语义映射规律；在模型评估层面，该数据集被用作大规模预训练模型（如CLIP、BLIP）在城市感知任务上的泛化性测试基准，揭示了现有模型在非西方城市图像分布中的性能局限，从而推动了对数据偏见与地域适配性的深入探讨。

数据集最近研究