DSSGxMunich/nrw-bplan-scrape
收藏Hugging Face2023-10-12 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/DSSGxMunich/nrw-bplan-scrape
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含创建NRW土地封闭数据集所需的所有输入和输出。数据集结构包括多个子文件夹,如nrw文件夹下的bplan和clean子文件夹,以及rplan文件夹。这些文件夹内含有从原始数据到处理后的数据的各种文件,如文本、图像、PDF文件和地理数据。
该数据集包含创建NRW土地封闭数据集所需的所有输入和输出。数据集结构包括多个子文件夹,如nrw文件夹下的bplan和clean子文件夹,以及rplan文件夹。这些文件夹内含有从原始数据到处理后的数据的各种文件,如文本、图像、PDF文件和地理数据。
提供机构:
DSSGxMunich
原始信息汇总
数据集卡片 for nrw-bplan-scrape
数据集描述
数据集概述
该数据集包含创建NRW土地封锁数据集所需的所有输入以及运行完整管道的输出。可以通过运行这个notebook来重现。
数据集结构
- nrw
- bplan
- features
- keywords
- exact_search
baunvo_keywords.csv: 文档中与baunvo和article 13b相关的关键词查找结果(是/否)。
- fuzzy_search
keyword_dict_hochwasser.json: 文档中与"hochwasser"相关的关键词查找结果,例如hqhäufig和hq100。- 包含7个csv文件,包含模糊关键词搜索的结果。文件名指示搜索的关键词,并在每行中提取关键词周围的文本。
- exact_search
- keywords
- raw
- images: 可以从这里添加图像到此文件夹。
- links
NRW_BP.geojson: 从NRV地理信息门户下载的文件,包含所有土地地块bplan的原始数据URL。land_parcels.geojson: NRW_BP.geojson的处理版本。NRW_BP_parsed_links.csv: NRW_BP.geojson的csv格式版本。
- text
bp_text.json: 每个pdf的文本提取的原始输出。仅包含文件名和提取的文本列。document_texts.json: bp_text.json的丰富版本,其中附加了有关文档的列。
- pdfs: 从NRW地理信息门户提取的pdf文件,可以从这里添加到此文件夹。
- knowledge_extraction_agent: 包含6个json文件。文件名对应于模糊关键词搜索中查找的关键词(例如
fh.json对应于firsthöhe.csv,gfz.json对应于geschossflächenzahl.csv)。更多信息可以在这里找到。 knowledge_agent_output.json: 是知识代理管道输出的10个文件的玩具示例(nrw/bplan/knowledge_extraction_agent中结果的合并)。
- features
- clean
- rplan
- features: 包含
regional_plan_sections.json,管道的输出 - 更详细的信息可以在这里找到。 - raw
- geo: 包含
regions_map.geojson,包含区域计划的地点信息。 - pdfs: 包含NRW区域计划的pdf文件 - 用作运行管道的输入。
- text: 包含从所有pdf区域计划中使用Tika提取的文本。
- geo: 包含
- features: 包含
- bplan



