HathawayLiu/housing_dataset
收藏Hugging Face2024-03-18 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/HathawayLiu/housing_dataset
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含了自2000年以来西雅图市所有已签发或正在进行的建筑许可证信息,并且随着时间推移不断更新。数据集包括许可证编号、类型、描述、预计项目成本、承包商信息等详细信息,并新增了基于地理位置的邻里区域列。数据集由西雅图政府授权,旨在促进透明度、公众意识和参与城市发展过程。
该数据集包含了自2000年以来西雅图市所有已签发或正在进行的建筑许可证信息,并且随着时间推移不断更新。数据集包括许可证编号、类型、描述、预计项目成本、承包商信息等详细信息,并新增了基于地理位置的邻里区域列。数据集由西雅图政府授权,旨在促进透明度、公众意识和参与城市发展过程。
提供机构:
HathawayLiu
原始信息汇总
数据集概述
数据集描述
基本信息
- 语言: 英语
- 数据规模: 100K<n<1M
- 标签: 住房, 许可证, 西雅图
数据集特征
- PermitNum: 字符串
- PermitClass: 字符串
- PermitClassMapped: 字符串
- PermitTypeMapped: 字符串
- PermitTypeDesc: 字符串
- Description: 字符串
- HousingUnits: 整数
- HousingUnitsRemoved: 整数
- HousingUnitsAdded: 整数
- EstProjectCost: 浮点数
- AppliedDate: 字符串
- IssuedDate: 字符串
- ExpiresDate: 字符串
- CompletedDate: 字符串
- StatusCurrent: 字符串
- RelatedMup: 字符串
- OriginalAddress1: 字符串
- OriginalCity: 字符串
- OriginalState: 字符串
- OriginalZip: 整数
- ContractorCompanyName: 字符串
- Link: 字符串
- Latitude: 浮点数
- Longitude: 浮点数
- Location1: 字符串
- NeighborDistrict: 字符串
数据集分割
- 训练集: 97541个样本, 47214591字节
- 测试集: 24388个样本, 11802066字节
数据集大小
- 下载大小: 18076020字节
- 数据集大小: 59016657字节
数据集结构
配置
- 默认配置:
- 训练集: data/train-*
- 测试集: data/test-*
数据集列描述
- PermitNum: 许可证编号
- PermitClass: 许可证类别
- PermitClassMapped: 许可证类别映射
- PermitTypeMapped: 许可证类型映射
- PermitTypeDesc: 许可证类型描述
- Description: 工作描述
- HousingUnits: 住房单元数
- HousingUnitsRemoved: 移除的住房单元数
- HousingUnitsAdded: 增加的住房单元数
- EstProjectCost: 估计项目成本
- AppliedDate: 申请日期
- IssuedDate: 发放日期
- ExpiresDate: 到期日期
- CompletedDate: 完成日期
- StatusCurrent: 当前状态
- RelatedMup: 相关土地使用许可证
- OriginalAddress1: 原始地址
- OriginalCity: 原始城市
- OriginalState: 原始州
- OriginalZip: 原始邮编
- ContractorCompanyName: 承包商公司名称
- Link: 详细信息链接
- Latitude: 纬度
- Longitude: 经度
- Location1: 位置
- NeighborDistrict: 邻域区
数据集创建
数据收集和处理
- 数据来源: 西雅图政府开放数据门户
- 数据格式: CSV
- 数据处理步骤:
- 数据预处理
- 使用Google GeoCoding API填充
OriginalZip列 - 使用GeoJSon文件分配邻域区
- 填充空白值为
N/A - 分割数据集为训练集和测试集
数据源生产者
- 数据源: 西雅图市,特别是其建筑和检查部门
偏差、风险和限制
技术限制
- 数据完整性: 可能不包括所有建筑许可证,尤其是旧记录
- 数据准确性: 可能存在错误或不一致
- 时效性: 数据可能不是实时更新
社会技术限制
- 隐私问题: 详细许可证数据可能用于推断私人信息
- 规划决策偏差: 数据可能用于加强城市规划中的现有偏见
- 技术熟练度依赖: 数据集的效用受用户解释和分析数据能力限制
偏差
- 仅反映许可建设: 数据集仅反映正式记录的开发,忽略非正式或未许可的建设
风险
- 滥用: 数据可能被用于不公平地针对特定社区或社区进行执法或政治原因
建议
- 交叉验证: 使用补充数据源进行更全面的视图
- 隐私和道德使用: 负责任地处理数据,尊重隐私并避免歧视性做法
- 数据清洗和验证: 定期更新和清洗数据集以保持准确性和可靠性
搜集汇总
数据集介绍

以上内容由遇见数据集搜集并总结生成



