five

DSSGxMunich/nrw-bplan-scrape

收藏
Hugging Face2023-10-12 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/DSSGxMunich/nrw-bplan-scrape
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集包含创建NRW土地封闭数据集所需的所有输入和输出。数据集结构包括多个子文件夹,如nrw文件夹下的bplan和clean子文件夹,以及rplan文件夹。这些文件夹内含有从原始数据到处理后的数据的各种文件,如文本、图像、PDF文件和地理数据。

该数据集包含创建NRW土地封闭数据集所需的所有输入和输出。数据集结构包括多个子文件夹,如nrw文件夹下的bplan和clean子文件夹,以及rplan文件夹。这些文件夹内含有从原始数据到处理后的数据的各种文件,如文本、图像、PDF文件和地理数据。
提供机构:
DSSGxMunich
原始信息汇总

数据集卡片 for nrw-bplan-scrape

数据集描述

数据集概述

该数据集包含创建NRW土地封锁数据集所需的所有输入以及运行完整管道的输出。可以通过运行这个notebook来重现。

数据集结构

  • nrw
    • bplan
      • features
        • keywords
          • exact_search
            • baunvo_keywords.csv: 文档中与baunvo和article 13b相关的关键词查找结果(是/否)。
          • fuzzy_search
            • keyword_dict_hochwasser.json: 文档中与"hochwasser"相关的关键词查找结果,例如hqhäufig和hq100。
            • 包含7个csv文件,包含模糊关键词搜索的结果。文件名指示搜索的关键词,并在每行中提取关键词周围的文本。
      • raw
        • images: 可以从这里添加图像到此文件夹。
        • links
          • NRW_BP.geojson: 从NRV地理信息门户下载的文件,包含所有土地地块bplan的原始数据URL。
          • land_parcels.geojson: NRW_BP.geojson的处理版本。
          • NRW_BP_parsed_links.csv: NRW_BP.geojson的csv格式版本。
        • text
          • bp_text.json: 每个pdf的文本提取的原始输出。仅包含文件名和提取的文本列。
          • document_texts.json: bp_text.json的丰富版本,其中附加了有关文档的列。
        • pdfs: 从NRW地理信息门户提取的pdf文件,可以从这里添加到此文件夹。
      • knowledge_extraction_agent: 包含6个json文件。文件名对应于模糊关键词搜索中查找的关键词(例如fh.json对应于firsthöhe.csvgfz.json对应于geschossflächenzahl.csv)。更多信息可以在这里找到。
      • knowledge_agent_output.json: 是知识代理管道输出的10个文件的玩具示例(nrw/bplan/knowledge_extraction_agent中结果的合并)。
    • clean
      • document_texts.xlsx: 更多信息可以在这里找到。
      • exact_keyword.xlsx: 对应于baunvo_keywords.csv。
      • fuzzy_keyword.xlsx: 是nrw/bplan/fuzzy_search中文件的合并版本。
      • knowledge_agent.xlsx: nrw/bplan/knowledge_agent_output.json的.xlsx版本。
      • land_parcels.xlsx: 更多信息可以在这里找到。
      • regional_plans.xlsx: 数据表的.xlsx版本,可以在这里找到。
    • rplan
      • features: 包含regional_plan_sections.json,管道的输出 - 更详细的信息可以在这里找到。
      • raw
        • geo: 包含regions_map.geojson,包含区域计划的地点信息。
        • pdfs: 包含NRW区域计划的pdf文件 - 用作运行管道的输入。
        • text: 包含从所有pdf区域计划中使用Tika提取的文本。
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作