DSSGxMunich/bplan_keyword_extraction
收藏Hugging Face2023-10-06 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/DSSGxMunich/bplan_keyword_extraction
下载链接
链接失效反馈官方服务:
资源简介:
该文件夹包含了精确的关键词提取和代理信息提取数据集。数据集结构包括两个主要文件夹:exact_search和knowledge_extraction_agent。exact_search文件夹包含两个CSV文件,分别记录了BauNVO关键词和hochwasser相关关键词在每份文档中的出现情况。knowledge_extraction_agent文件夹包含多个JSON文件,记录了代理检测到的各种建筑相关参数及其模糊关键词搜索结果。数据集的创建过程涉及从document_texts.csv文件中提取关键词,并通过模糊搜索和GPT提取相关值。使用数据时需要注意,由于结果未经过手动验证,建议由专业人士进行二次检查。
提供机构:
DSSGxMunich
原始信息汇总
数据集卡片:关键词提取
数据集描述
数据集概述
本文件夹包含精确关键词提取和代理信息提取数据集。
数据集结构
文件夹结构
-
exact_search
- baunvo_keywords.csv -> 每个文档中BauNVO关键词的出现情况。
- hochwasser_keywords.csv -> 每个文档中与洪水相关关键词的出现情况。
-
knowledge_extraction_agent
- fh.json -> 代理检测到的第一高度和模糊关键词搜索结果。
- gfz.json -> 代理检测到的楼层面积系数和模糊关键词搜索结果。
- grz.json -> 代理检测到的基地面积系数和模糊关键词搜索结果。
- max_h.json -> 代理检测到的最大建筑高度和模糊关键词搜索结果。
- min_h.json -> 代理检测到的最小建筑高度和模糊关键词搜索结果。
- th.json -> 代理检测到的屋檐高度和模糊关键词搜索结果。
数据字段
-
baunvo_keywords.csv:
- filename: 提取的PDF文件名。
- columns baunvo-XX 和 13b: 搜索的类别名称和匹配该类别的关键词。
-
hochwasser_keywords.csv:
- filename: 提取的PDF文件名。
- contextualised_keyword: 关键词出现的段落上下文。
- actual_keyword: 实际搜索的关键词。
- category: 洪水关键词类别(hq100, hqhaufig, hqextrem)
-
knowledge_extraction_agent 中的所有文件都是.json文件,包含以下结构:
- id: 提取的文档ID。
- keyword_input: 用于值提取的模糊关键词输入(上下文段落)。
- keyword_agent_response: 代理的结果。
- keyword_extracted_value: 代理提取的值。
- validation: 结果的验证。
数据集创建
初始数据收集和规范化
这是从document_texts.csv文件中提取关键词的结果。精确关键词提取是通过选择一组相关关键词并在文本中搜索它们来完成的。同时,代理关键词提取是通过使用模糊搜索来获取关键词周围的上下文,并使用GPT提取相关值的结果。
数据使用注意事项
偏差讨论
这些关键词和代理结果未经人工验证。因此,我们提供了值的上下文段落:信息应由专业人员进行双重检查。



