five

HathawayLiu/housing_dataset

收藏
Hugging Face2024-03-18 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/HathawayLiu/housing_dataset
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集包含了自2000年以来西雅图市所有已签发或正在进行的建筑许可证信息,并且随着时间推移不断更新。数据集包括许可证编号、类型、描述、预计项目成本、承包商信息等详细信息,并新增了基于地理位置的邻里区域列。数据集由西雅图政府授权,旨在促进透明度、公众意识和参与城市发展过程。

该数据集包含了自2000年以来西雅图市所有已签发或正在进行的建筑许可证信息,并且随着时间推移不断更新。数据集包括许可证编号、类型、描述、预计项目成本、承包商信息等详细信息,并新增了基于地理位置的邻里区域列。数据集由西雅图政府授权,旨在促进透明度、公众意识和参与城市发展过程。
提供机构:
HathawayLiu
原始信息汇总

数据集概述

数据集描述

基本信息

  • 语言: 英语
  • 数据规模: 100K<n<1M
  • 标签: 住房, 许可证, 西雅图

数据集特征

  • PermitNum: 字符串
  • PermitClass: 字符串
  • PermitClassMapped: 字符串
  • PermitTypeMapped: 字符串
  • PermitTypeDesc: 字符串
  • Description: 字符串
  • HousingUnits: 整数
  • HousingUnitsRemoved: 整数
  • HousingUnitsAdded: 整数
  • EstProjectCost: 浮点数
  • AppliedDate: 字符串
  • IssuedDate: 字符串
  • ExpiresDate: 字符串
  • CompletedDate: 字符串
  • StatusCurrent: 字符串
  • RelatedMup: 字符串
  • OriginalAddress1: 字符串
  • OriginalCity: 字符串
  • OriginalState: 字符串
  • OriginalZip: 整数
  • ContractorCompanyName: 字符串
  • Link: 字符串
  • Latitude: 浮点数
  • Longitude: 浮点数
  • Location1: 字符串
  • NeighborDistrict: 字符串

数据集分割

  • 训练集: 97541个样本, 47214591字节
  • 测试集: 24388个样本, 11802066字节

数据集大小

  • 下载大小: 18076020字节
  • 数据集大小: 59016657字节

数据集结构

配置

  • 默认配置:
    • 训练集: data/train-*
    • 测试集: data/test-*

数据集列描述

  • PermitNum: 许可证编号
  • PermitClass: 许可证类别
  • PermitClassMapped: 许可证类别映射
  • PermitTypeMapped: 许可证类型映射
  • PermitTypeDesc: 许可证类型描述
  • Description: 工作描述
  • HousingUnits: 住房单元数
  • HousingUnitsRemoved: 移除的住房单元数
  • HousingUnitsAdded: 增加的住房单元数
  • EstProjectCost: 估计项目成本
  • AppliedDate: 申请日期
  • IssuedDate: 发放日期
  • ExpiresDate: 到期日期
  • CompletedDate: 完成日期
  • StatusCurrent: 当前状态
  • RelatedMup: 相关土地使用许可证
  • OriginalAddress1: 原始地址
  • OriginalCity: 原始城市
  • OriginalState: 原始州
  • OriginalZip: 原始邮编
  • ContractorCompanyName: 承包商公司名称
  • Link: 详细信息链接
  • Latitude: 纬度
  • Longitude: 经度
  • Location1: 位置
  • NeighborDistrict: 邻域区

数据集创建

数据收集和处理

  • 数据来源: 西雅图政府开放数据门户
  • 数据格式: CSV
  • 数据处理步骤:
    1. 数据预处理
    2. 使用Google GeoCoding API填充OriginalZip
    3. 使用GeoJSon文件分配邻域区
    4. 填充空白值为N/A
    5. 分割数据集为训练集和测试集

数据源生产者

  • 数据源: 西雅图市,特别是其建筑和检查部门

偏差、风险和限制

技术限制

  • 数据完整性: 可能不包括所有建筑许可证,尤其是旧记录
  • 数据准确性: 可能存在错误或不一致
  • 时效性: 数据可能不是实时更新

社会技术限制

  • 隐私问题: 详细许可证数据可能用于推断私人信息
  • 规划决策偏差: 数据可能用于加强城市规划中的现有偏见
  • 技术熟练度依赖: 数据集的效用受用户解释和分析数据能力限制

偏差

  • 仅反映许可建设: 数据集仅反映正式记录的开发,忽略非正式或未许可的建设

风险

  • 滥用: 数据可能被用于不公平地针对特定社区或社区进行执法或政治原因

建议

  • 交叉验证: 使用补充数据源进行更全面的视图
  • 隐私和道德使用: 负责任地处理数据,尊重隐私并避免歧视性做法
  • 数据清洗和验证: 定期更新和清洗数据集以保持准确性和可靠性
搜集汇总
数据集介绍
main_image_url
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作