London-Planning-Decisions-Sample

Hugging Face2026-04-17 更新2026-04-18 收录

下载链接：

https://huggingface.co/datasets/strictschema/London-Planning-Decisions-Sample

下载链接

链接失效反馈

官方服务：

资源简介：

Westminster规划决策数据集2025包含了来自威斯敏斯特市议会的50条结构化规划决策记录，整合了门户网站元数据和从决策通知及委托报告PDF中通过AI提取的字段。数据集涵盖2025年1月至11月的45项拒绝和5项批准的申请，包含37个详细字段。主要字段包括完整的拒绝原因、官员推荐意见、主要拒绝类别、官员设计评估、引用的政策编号、批准条件等。数据来源包括直接从威斯敏斯特Idox规划门户网站抓取的门户字段，以及使用Claude AI从PDF文档中提取的字段。该数据集适用于规划决策分类、拒绝预测、政策引用频率分析、官员评估NLP和总结、预申请风险建模以及PropTech数据管道等应用场景。数据集遵循cc-by-4.0许可协议，主要面向文本分类和标记分类任务，数据规模小于1K条记录。

创建时间：

2026-04-05

原始信息汇总

Westminster Planning Decisions 2025 数据集概述

基本信息

数据集名称: Westminster Planning Decisions 2025
发布者: StrictSchema
许可协议: CC-BY-4.0
任务类别: 文本分类、令牌分类
语言: 英语
标签: 规划、英国、房地产科技、法律、政府、威斯敏斯特
数据规模: 小于1K条
数据条数: 50条结构化规划决策记录

数据来源与内容

来源机构: 英国威斯敏斯特市议会
时间范围: 2025年1月至11月
决策类型: 45项拒绝，5项批准
申请类型: 完整规划许可（29项）、列入保护建筑许可（10项）、广告许可（6项）、保护建筑细节批准（5项）
数据构成: 结合了门户网站元数据和从“决策通知”及“授权报告”PDF文件中通过AI提取的字段。

核心字段说明

PP_Reference: 国家规划门户参考号（用于跨数据集空间映射的连接键）
Full_Reason_for_Refusal: 完整的拒绝理由，经AI提取的干净文本
Officer_Recommendation: 官员建议，例如“拒绝规划许可——设计与遗产”
Primary_Refusal_Category: 主要拒绝类别（设计/遗产/舒适性/高速公路/用途）
Officer_Design_Assessment: 官员在授权报告中撰写的设计分析
Policies_Cited: 引用的具体政策编号，例如“City Plan 2019-2040 政策38, 39”
Conditions_of_Approval: 获批申请的编号条件
Informatives: 实质性的、针对具体申请的指导（排除模板文本）
Agent_Company: 规划咨询公司名称或“私人个体”（符合GDPR规定）
Conservation_Area_Name: 保护区名称，例如“摄政街”、“贝斯沃特”、“梅菲尔”
Decision_Within_Deadline: 是否符合8周法定目标的TRUE/FALSE值
Planning_History: 该地点相关过往申请的摘要

字段覆盖范围摘要

字段	覆盖范围	备注
Application_Number, Type, Dates, Outcome	100%	确定性字段：从门户网站抓取
Site_Postcode	97%	确定性字段：从地址提取
PP_Reference	93%	确定性字段：国家规划门户连接键
Agent_Company	92%	确定性字段：从门户网站抓取
Is_Listed_Building / Is_Conservation_Area	99%	AI提取：从报告标题提取
Conservation_Area_Name	91%	AI提取：例如“摄政街”、“梅菲尔”
Officer_Recommendation	96%	AI提取：例如“拒绝规划许可”
Full_Reason_for_Refusal	81%	AI提取：干净文本，无模板内容
Primary_Refusal_Category	89%	AI提取：设计/遗产/舒适性/高速公路
Officer_Design_Assessment	55%	AI提取：来自授权报告
Policies_Cited	88%	AI提取：例如“City Plan 政策38, 39”
Conditions_of_Approval	11%	AI提取：仅限获批申请——预期较低
Informatives	34%	AI提取：仅实质性指导
Plan_Numbers_Submitted	96%	AI提取：来自清单的图纸编号
Planning_History	87%	AI提取：该地点的过往申请
Documents_Count / Related_Cases_Count	100%	确定性字段：从门户网站抓取

数据提取方法

门户网站字段: 直接从威斯敏斯特Idox规划门户网站抓取，100%可靠。
PDF字段: 使用Claude AI从“决策通知”和“授权报告”PDF文件中提取。此方法处理了空间压缩文本和正则表达式无法可靠解析的高度可变文档布局，生成干净可读的输出。

模式详情

总列数: 37列。
日期格式: ISO 8601 (YYYY-MM-DD)。
隐私处理: 个人姓名根据GDPR规定匿名化为“私人个体”；住宅地址仅保留邮政编码。

主要用途

训练预测性规划决策分类器
按申请类型、保护区或特定政策违规进行拒绝率基准测试
政策引用频率分析
官员评估的自然语言处理和摘要生成
预申请风险建模和空间风险评分工具
房地产科技数据管道

商业与定制访问

完整数据集（10,000+行）的预购、API访问请求或为特定英国议会定制NLP提取服务，请访问 https://strictschema.gumroad.com/l/gjblad 或在社区板块发帖。

搜集汇总

数据集介绍

构建方式

在智慧城市与法律科技交叉领域，该数据集通过严谨的双重数据采集方法构建。核心数据源自威斯敏斯特市议会的规划门户网站，采用自动化爬虫技术精准提取申请编号、日期、决策结果等确定性字段。针对决策通知书与授权报告等非结构化文档，则运用Claude人工智能模型进行深度解析，有效克服了传统正则表达式在处理复杂版式与压缩文本时的局限，从而实现了从PDF到清晰可读文本的可靠转换。

特点

本数据集以其精细的结构化标注与高信息密度而著称，涵盖了37个关键字段，全面描绘了规划决策的完整图景。其显著特点在于融合了门户网站的确定性元数据与AI提取的深度语义信息，例如完整的拒绝理由、官员设计评估及引用的具体政策条款。数据集特别注重隐私保护与数据规范性，对个人姓名进行了GDPR合规化处理，并将所有日期统一为ISO 8601格式，确保了数据的可直接分析性。

使用方法

该数据集为城市规划分析与法律文本挖掘研究提供了高质量基准。研究者可将其用于训练预测性规划决策分类模型，深入分析不同申请类型或保护区内的拒绝率差异。通过解析政策引用频率与官员评估文本，能够支持政策影响评估与自然语言处理任务。此外，它也为房地产开发技术领域构建风险评估模型与空间数据管道奠定了坚实的数据基础。

背景与挑战

背景概述

伦敦规划决策样本数据集由StrictSchema机构于2025年构建，聚焦于英国城市规划领域的文本与标记分类任务。该数据集以威斯敏斯特市议会的规划决策记录为核心，通过人工智能技术从决策通知和委托报告PDF中提取结构化信息，旨在为PropTech开发者、数据科学家和自然语言处理工程师提供验证数据模式的基准。其核心研究问题在于如何将非结构化的政府规划文档转化为机器可读的标准化数据，以支持规划决策预测、政策引用分析和空间风险评估等应用，对推动城市规划的数字化与智能化进程具有显著影响力。

当前挑战

该数据集致力于解决城市规划文档自动化处理与决策模式识别的挑战，具体包括从高度可变的文档布局中准确提取语义信息，以及克服空间压缩文本和复杂政策表述带来的自然语言理解困难。在构建过程中，挑战主要源于数据源的异构性，例如决策报告格式的非标准化导致AI提取字段覆盖度不均，如设计评估字段覆盖率仅为55%；同时需在确保数据实用性的前提下遵守GDPR法规，对个人姓名和住址信息进行匿名化处理，平衡数据完整性与隐私保护之间的张力。

常用场景

经典使用场景

在城市规划与房地产科技领域，数据驱动的决策支持系统正日益成为研究与实践的核心。该数据集通过结构化记录伦敦威斯敏斯特区规划决策的详细字段，为训练预测性规划决策分类模型提供了经典范例。研究人员可利用其丰富的文本与分类标签，构建机器学习算法以自动预测申请结果，从而分析设计、遗产保护等关键因素对审批的影响机制。

衍生相关工作

围绕该数据集衍生的经典工作主要集中在自然语言处理与预测建模领域。例如，利用其文本字段训练BERT等模型进行规划文档自动分类与摘要生成；结合空间数据开发多 borough 决策模式对比分析框架；还有研究基于政策引用网络构建规划法规影响力图谱。这些工作显著提升了规划决策的透明度和自动化分析水平，为智慧城市研究提供了方法论参考。

数据集最近研究