WorcesterMA_Housing_Facades
收藏Hugging Face2025-12-28 更新2025-12-29 收录
下载链接:
https://huggingface.co/datasets/murai-lab/WorcesterMA_Housing_Facades
下载链接
链接失效反馈官方服务:
资源简介:
WorcesterMA_Housing_Facades数据集包含美国马萨诸塞州伍斯特市房屋立面的街景照片,这些照片被分为四个立面类别(class_1到class_4)。每个图像文件名对应一个市政属性ID(PID),可以与包含的属性元数据关联。数据集总共有22,949张图像,其中训练集20,467张,测试集2,482张。类别分布显示class_1数量最多。数据集支持图像分类任务,数据字段包括图像、PID、位置、类别标签等。此外,数据集还包含建造年份等元数据。数据集的地理偏差和类别不平衡是其主要局限性。
创建时间:
2025-12-27
原始信息汇总
WorcesterMA_Housing_Facades 数据集概述
数据集基本信息
- 数据集名称: WorcesterMA_Housing_Facades
- 简短描述: 美国马萨诸塞州伍斯特市住宅立面的街景照片。图像被标记为四个立面类别(class_1..class_4)。文件名对应市政财产ID(PID),可与包含的财产元数据关联。
- 任务类别: 图像分类(住宅立面类型)
- 语言: 英语(元数据字段)
- 许可证: MIT
数据集规模与结构
- 总图像数量: 22,949 张
- 训练集: 20,467 张图像
- 测试集: 2,482 张图像
- 下载大小: 14162363681 字节
- 数据集大小: 14162363681 字节
类别分布
训练集 / 测试集分布:
- class_1: 11,254 / 1,241
- class_2: 4,958 / 543
- class_3: 2,967 / 353
- class_4: 1,288 / 345
数据字段/特征
file_name: 图像文件pid: 整数财产标识符(不带 .jpg 的文件名)split:train或testclass_label: 字符串标签(class_1..class_4)或注册文件中的整数编码标签year_built: 建造年份location: 字符串住房位置地址url: URL- 其他元数据(如可用):
metadata.csv/ 注册CSV文件中的image_path等。
配置
- 配置名称: standard
- 数据文件:
- 训练集: metadata_train.csv
- 测试集: metadata_test.csv
使用方式
可通过 Hugging Face datasets 库加载数据集。示例代码:
python
from datasets import load_dataset
ds_train = load_dataset("WorcesterMA_Housing_Facades", "standard", split="train")
ds_test = load_dataset("WorcesterMA_Housing_Facades", "standard", split="test")
局限性
- 地理偏差: 所有图像均来自马萨诸塞州伍斯特市,在此数据上训练的模型可能无法推广到其他城市或建筑风格。
- 类别不平衡:
class_1是最大的类别;在训练期间考虑类别平衡策略。 - 潜在的隐私问题: 图像可能包含可见的地址、车牌或人物。在公开发布前,请核实当地的隐私和使用政策。
来源与权限
- 图像文件和分片:
WorcesterMA_Housing_Facades/train和.../test文件夹。 - 元数据文件:
metadata.csv提供 PID 和图像路径之间的映射。 - 权限: 已于 2025 年 12 月 15 日获得伍斯特评估员办公室的口头同意以共享此数据集。他们告知,网站上所有可用数据均为公共记录,因此可以由我们作为数据集提供。
外部资源
- GitHub 项目: https://github.com/murai-lab/City-Transformers
- Hugging Face 数据集页面: https://huggingface.co/datasets/murai-lab/WorcesterMA_Housing_Facades
联系方式
- Shannon Song: song.shannon.m@gmail.com
- Yiqing Zhang: yiqingzhang125@gmail.com
- Fabricio Murai: fmurai@wpi.edu
- Nancy Ma: nma1@wpi.edu
搜集汇总
数据集介绍

构建方式
在建筑视觉分析领域,WorcesterMA_Housing_Facades数据集的构建体现了严谨的数据整合方法。该数据集通过采集美国马萨诸塞州伍斯特市的街道级住宅立面照片,并与市政财产登记元数据相结合而成。每张图像以财产标识符(PID)命名,确保了图像与元数据字段(如建造年份、地理位置)的精确关联。数据收集过程获得了当地评估办公室的口头许可,确认所有资料均为公共记录,从而在合法合规的前提下完成了22,949张图像的系统化整理。
特点
该数据集在住宅立面视觉分类研究中展现出鲜明的特征。其核心在于将图像数据与丰富的属性元数据深度融合,提供了包括建造年份、地址位置在内的结构化信息。数据规模达到22,949张图像,并划分为训练集与测试集,其中训练集包含20,467张,测试集为2,482张。图像被标注为四个立面类别,但类别分布存在明显不平衡,例如class_1类别占据主导,这为研究类别不平衡问题提供了真实场景。所有数据均集中于单一地理区域,为研究模型的地理泛化性设立了特定边界。
使用方法
对于计算机视觉研究者而言,该数据集的使用遵循标准化的流程。用户可通过Hugging Face的datasets库直接加载数据,选择‘standard’配置以获取包含图像路径与元数据的完整结构。在实际应用前,建议进行图像完整性验证,并利用财产标识符将图像与附带的metadata.csv文件进行连接,以访问扩展属性。模型训练可采用常见的图像加载库(如PIL或OpenCV)及标准数据增强技术。需要注意的是,由于数据存在地理局限性与类别不平衡,在模型设计与评估阶段需考虑相应的偏差缓解策略。
背景与挑战
背景概述
在计算机视觉与城市研究交叉领域,建筑立面分类作为理解城市形态与住房特征的关键任务,日益受到学术界关注。WorcesterMA_Housing_Facades数据集由麻省伍斯特理工学院的研究团队于2025年创建,核心研究问题在于通过街景图像实现住房立面的自动化分类,从而支持城市风貌分析、房产评估及历史建筑保护等应用。该数据集整合了伍斯特市的房产登记元数据与实地采集的立面图像,为视觉住房分类研究提供了重要的实证基础,推动了地理信息科学与机器学习方法的深度融合。
当前挑战
该数据集旨在解决建筑立面图像分类的领域挑战,包括应对不同建筑风格、光照条件及遮挡物带来的视觉复杂性,以及从有限地理样本中提取可泛化特征。在构建过程中,研究人员面临数据采集的实操困难,如确保图像质量一致性、处理缺失或损坏文件,并需协调公开记录与隐私保护之间的平衡。此外,类别分布不均衡与地域局限性可能影响模型在跨城市场景中的表现,要求后续研究采用数据增强或迁移学习策略以提升鲁棒性。
常用场景
经典使用场景
在计算机视觉与城市研究领域,WorcesterMA_Housing_Facades数据集为住房立面分类任务提供了宝贵的视觉资源。该数据集通过整合街道级摄影图像与房产元数据,支持研究者构建和评估图像分类模型,以自动识别和归类不同风格的建筑立面。其经典应用场景包括训练卷积神经网络等深度学习模型,实现对四类住房立面的精准识别,为城市风貌分析与建筑类型学研究奠定数据基础。
实际应用
在实际应用中,WorcesterMA_Housing_Facades数据集可服务于城市规划与遗产保护工作。例如,市政部门可利用训练好的模型批量评估城市区域的建筑风格分布,辅助历史街区保护政策的制定。房地产行业也可借助此类技术自动化分析房产外观特征,提升市场评估效率。这些应用展现了视觉数据在城市管理与智慧城市建设中的潜在价值。
衍生相关工作
围绕该数据集,已衍生出多项经典研究工作,主要集中在视觉住房分类模型的开发与优化。例如,研究者利用其训练Transformer架构的视觉模型,探索跨城市泛化能力;同时,结合元数据如建筑年份,开展了时序风格演变分析。这些工作不仅提升了立面分类的准确性,还拓展了数据在城市计算与数字人文领域的应用边界。
以上内容由遇见数据集搜集并总结生成



