five

WorcesterMA_Housing_Facades

收藏
Hugging Face2025-12-28 更新2025-12-29 收录
下载链接:
https://huggingface.co/datasets/murai-lab/WorcesterMA_Housing_Facades
下载链接
链接失效反馈
官方服务:
资源简介:
WorcesterMA_Housing_Facades数据集包含美国马萨诸塞州伍斯特市房屋立面的街景照片,这些照片被分为四个立面类别(class_1到class_4)。每个图像文件名对应一个市政属性ID(PID),可以与包含的属性元数据关联。数据集总共有22,949张图像,其中训练集20,467张,测试集2,482张。类别分布显示class_1数量最多。数据集支持图像分类任务,数据字段包括图像、PID、位置、类别标签等。此外,数据集还包含建造年份等元数据。数据集的地理偏差和类别不平衡是其主要局限性。
创建时间:
2025-12-27
原始信息汇总

WorcesterMA_Housing_Facades 数据集概述

数据集基本信息

  • 数据集名称: WorcesterMA_Housing_Facades
  • 简短描述: 美国马萨诸塞州伍斯特市住宅立面的街景照片。图像被标记为四个立面类别(class_1..class_4)。文件名对应市政财产ID(PID),可与包含的财产元数据关联。
  • 任务类别: 图像分类(住宅立面类型)
  • 语言: 英语(元数据字段)
  • 许可证: MIT

数据集规模与结构

  • 总图像数量: 22,949 张
  • 训练集: 20,467 张图像
  • 测试集: 2,482 张图像
  • 下载大小: 14162363681 字节
  • 数据集大小: 14162363681 字节

类别分布

训练集 / 测试集分布:

  • class_1: 11,254 / 1,241
  • class_2: 4,958 / 543
  • class_3: 2,967 / 353
  • class_4: 1,288 / 345

数据字段/特征

  • file_name: 图像文件
  • pid: 整数财产标识符(不带 .jpg 的文件名)
  • split: traintest
  • class_label: 字符串标签(class_1..class_4)或注册文件中的整数编码标签
  • year_built: 建造年份
  • location: 字符串住房位置地址
  • url: URL
  • 其他元数据(如可用):metadata.csv / 注册CSV文件中的 image_path 等。

配置

  • 配置名称: standard
  • 数据文件:
    • 训练集: metadata_train.csv
    • 测试集: metadata_test.csv

使用方式

可通过 Hugging Face datasets 库加载数据集。示例代码: python from datasets import load_dataset ds_train = load_dataset("WorcesterMA_Housing_Facades", "standard", split="train") ds_test = load_dataset("WorcesterMA_Housing_Facades", "standard", split="test")

局限性

  • 地理偏差: 所有图像均来自马萨诸塞州伍斯特市,在此数据上训练的模型可能无法推广到其他城市或建筑风格。
  • 类别不平衡: class_1 是最大的类别;在训练期间考虑类别平衡策略。
  • 潜在的隐私问题: 图像可能包含可见的地址、车牌或人物。在公开发布前,请核实当地的隐私和使用政策。

来源与权限

  • 图像文件和分片: WorcesterMA_Housing_Facades/train.../test 文件夹。
  • 元数据文件: metadata.csv 提供 PID 和图像路径之间的映射。
  • 权限: 已于 2025 年 12 月 15 日获得伍斯特评估员办公室的口头同意以共享此数据集。他们告知,网站上所有可用数据均为公共记录,因此可以由我们作为数据集提供。

外部资源

  • GitHub 项目: https://github.com/murai-lab/City-Transformers
  • Hugging Face 数据集页面: https://huggingface.co/datasets/murai-lab/WorcesterMA_Housing_Facades

联系方式

  • Shannon Song: song.shannon.m@gmail.com
  • Yiqing Zhang: yiqingzhang125@gmail.com
  • Fabricio Murai: fmurai@wpi.edu
  • Nancy Ma: nma1@wpi.edu
搜集汇总
数据集介绍
main_image_url
构建方式
在建筑视觉分析领域,WorcesterMA_Housing_Facades数据集的构建体现了严谨的数据整合方法。该数据集通过采集美国马萨诸塞州伍斯特市的街道级住宅立面照片,并与市政财产登记元数据相结合而成。每张图像以财产标识符(PID)命名,确保了图像与元数据字段(如建造年份、地理位置)的精确关联。数据收集过程获得了当地评估办公室的口头许可,确认所有资料均为公共记录,从而在合法合规的前提下完成了22,949张图像的系统化整理。
特点
该数据集在住宅立面视觉分类研究中展现出鲜明的特征。其核心在于将图像数据与丰富的属性元数据深度融合,提供了包括建造年份、地址位置在内的结构化信息。数据规模达到22,949张图像,并划分为训练集与测试集,其中训练集包含20,467张,测试集为2,482张。图像被标注为四个立面类别,但类别分布存在明显不平衡,例如class_1类别占据主导,这为研究类别不平衡问题提供了真实场景。所有数据均集中于单一地理区域,为研究模型的地理泛化性设立了特定边界。
使用方法
对于计算机视觉研究者而言,该数据集的使用遵循标准化的流程。用户可通过Hugging Face的datasets库直接加载数据,选择‘standard’配置以获取包含图像路径与元数据的完整结构。在实际应用前,建议进行图像完整性验证,并利用财产标识符将图像与附带的metadata.csv文件进行连接,以访问扩展属性。模型训练可采用常见的图像加载库(如PIL或OpenCV)及标准数据增强技术。需要注意的是,由于数据存在地理局限性与类别不平衡,在模型设计与评估阶段需考虑相应的偏差缓解策略。
背景与挑战
背景概述
在计算机视觉与城市研究交叉领域,建筑立面分类作为理解城市形态与住房特征的关键任务,日益受到学术界关注。WorcesterMA_Housing_Facades数据集由麻省伍斯特理工学院的研究团队于2025年创建,核心研究问题在于通过街景图像实现住房立面的自动化分类,从而支持城市风貌分析、房产评估及历史建筑保护等应用。该数据集整合了伍斯特市的房产登记元数据与实地采集的立面图像,为视觉住房分类研究提供了重要的实证基础,推动了地理信息科学与机器学习方法的深度融合。
当前挑战
该数据集旨在解决建筑立面图像分类的领域挑战,包括应对不同建筑风格、光照条件及遮挡物带来的视觉复杂性,以及从有限地理样本中提取可泛化特征。在构建过程中,研究人员面临数据采集的实操困难,如确保图像质量一致性、处理缺失或损坏文件,并需协调公开记录与隐私保护之间的平衡。此外,类别分布不均衡与地域局限性可能影响模型在跨城市场景中的表现,要求后续研究采用数据增强或迁移学习策略以提升鲁棒性。
常用场景
经典使用场景
在计算机视觉与城市研究领域,WorcesterMA_Housing_Facades数据集为住房立面分类任务提供了宝贵的视觉资源。该数据集通过整合街道级摄影图像与房产元数据,支持研究者构建和评估图像分类模型,以自动识别和归类不同风格的建筑立面。其经典应用场景包括训练卷积神经网络等深度学习模型,实现对四类住房立面的精准识别,为城市风貌分析与建筑类型学研究奠定数据基础。
实际应用
在实际应用中,WorcesterMA_Housing_Facades数据集可服务于城市规划与遗产保护工作。例如,市政部门可利用训练好的模型批量评估城市区域的建筑风格分布,辅助历史街区保护政策的制定。房地产行业也可借助此类技术自动化分析房产外观特征,提升市场评估效率。这些应用展现了视觉数据在城市管理与智慧城市建设中的潜在价值。
衍生相关工作
围绕该数据集,已衍生出多项经典研究工作,主要集中在视觉住房分类模型的开发与优化。例如,研究者利用其训练Transformer架构的视觉模型,探索跨城市泛化能力;同时,结合元数据如建筑年份,开展了时序风格演变分析。这些工作不仅提升了立面分类的准确性,还拓展了数据在城市计算与数字人文领域的应用边界。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作