heb_architecture_corpus

github2024-04-10 更新2024-05-31 收录

下载链接：

https://github.com/bdar-lab/heb_architecture_corpus

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集是由建筑与城市规划学院的Big Data in Architectural Research Lab精心策划、处理、解析和分析的希伯来语文本语料库，专注于建筑、规划和建筑学领域。数据集包含来自多种当代和历史来源的希伯来文文档，如立法法令、监管指南、研究报告、学术研究和专业期刊。数据集支持NLP研究和开发，根据CC BY 4.0许可提供使用。

This dataset is a meticulously curated, processed, parsed, and analyzed Hebrew text corpus by the Big Data in Architectural Research Lab at the School of Architecture and Urban Planning, focusing on the fields of architecture, planning, and architectural studies. The dataset includes Hebrew documents from a variety of contemporary and historical sources, such as legislative decrees, regulatory guidelines, research reports, academic studies, and professional journals. It supports NLP research and development and is made available under the CC BY 4.0 license.

创建时间：

2023-03-21

原始信息汇总

数据集概述

数据集名称

Hebrew textual corpus on construction, planning, and architecture

数据集描述

该数据集由Big Data in Architectural Research Lab（BDAR Lab）在Technion - IIT的Faculty of Architecture and Town Planning中开发。数据集包含22,382,594个单词，分布在1218个文档中，涵盖了从立法法令、监管指南到研究报告和学术期刊等多种类型的当代和历史文献。数据集的开发过程中使用了数字原生和扫描的印刷出版物，并通过光学字符识别（OCR）、清洗和标记处理。

数据集内容

/conllu/ - 形态学分析文本，CONLLU格式
/csv/ - 形态学分析文本，CSV格式
/jsonl/ - 命名实体，JSONL格式
/txt/ - 纯文本
full_IIA_corpus_8.2.2024.csv - 完整数据集元数据

访问方式

通过CQPweb界面可以浏览数据集内容并运行文本查询。访问此系统需联系omrish@technion.ac.il。

许可证

数据集根据CC BY 4.0许可证（Attribution 4.0 International）提供，适用于所有类型的NLP研究和开发使用。

引用信息

Aleksandrowicz, O., Rosenberg, D., Shafer-Raviv, O., Ordan, N. (2024). Hebrew textual corpus on construction, planning, and architecture. GitHUB. https://github.com/bdar-lab/heb_architecture_corpus.

搜集汇总

数据集介绍

构建方式

该数据集由以色列理工学院建筑与城市规划学院的‘大数据在建筑研究实验室’精心构建，汇集了来自多种当代和历史来源的希伯来语文本，包括立法法令、监管指南、研究报告、学术研究和专业期刊。这些文本来源既有数字化的原始资料，也有通过光学字符识别（OCR）技术处理的扫描印刷出版物。经过OCR处理、清洗和标记后，使用Trankit Python工具包进行标记，最终形成了包含22,382,594个单词的1218份文档的语料库。

特点

该数据集的显著特点在于其广泛的内容覆盖和多样的格式支持。语料库不仅涵盖了建筑、规划和施工领域的广泛主题，还提供了多种格式的数据，包括CONLLU、CSV、JSONL和纯文本，以满足不同研究需求。此外，该数据集的构建旨在支持自然语言处理（NLP）工具的开发，特别适用于与建筑行业相关的技术应用。

使用方法

用户可以通过CQPweb接口浏览数据集内容并执行文本查询。数据集提供了多种格式的文件，包括/conllu/目录下的形态分析文本、/csv/目录下的CSV格式文本、/jsonl/目录下的命名实体、以及/txt/目录下的纯文本。此外，full_IIA_corpus_8.2.2024.csv文件包含了完整的语料库元数据。用户可以根据研究需求选择合适的格式进行分析和处理，特别适合于NLP研究和开发。

背景与挑战

背景概述

在以色列，建筑业作为主要经济部门之一，随着人口的快速增长，其重要性预计将在未来几十年内持续增强。不同于许多发达国家因人口增长缓慢而导致的新建速度放缓，以色列的建筑用地面积每25年翻一番。为应对这一趋势，[Big Data in Architectural Research Lab](https://oraleks.net.technion.ac.il/en/bdar-lab/)实验室的Dr. Or Aleksandrowicz及其团队创建了名为heb_architecture_corpus的希伯来语文本语料库，专注于建筑、规划和建筑学领域。该语料库汇集了来自立法法令、监管指南、研究报告、学术研究和专业期刊等多种历史和当代来源的文档，旨在通过自然语言处理（NLP）技术加速与建筑行业相关的技术应用和融合。

当前挑战

构建heb_architecture_corpus面临的主要挑战包括：首先，处理来自不同历史时期的文档，这些文档既有数字化的原始资料，也有通过光学字符识别（OCR）技术处理的扫描印刷品，确保其准确性和一致性是一项复杂任务。其次，语料库的标注工作依赖于[Trankit Python Toolkit](https://github.com/nlp-uoregon/trankit)，如何有效利用该工具进行高质量的文本分析和标注，是另一大技术难题。此外，由于希伯来语的特殊性，开发适用于该语言的NLP工具和算法也具有一定的挑战性。

常用场景

经典使用场景

heb_architecture_corpus数据集的经典使用场景主要集中在自然语言处理（NLP）领域，特别是在建筑、规划和施工行业的文本分析中。该数据集包含了大量希伯来语文本，涵盖了立法法令、监管指南、研究报告、学术论文和专业期刊等多种来源。通过使用该数据集，研究者可以开发和优化NLP工具，以支持建筑行业的技术应用和知识整合。

解决学术问题

该数据集解决了建筑和规划领域中希伯来语文本分析的学术难题。由于希伯来语在建筑领域的专业术语和复杂语法结构，传统的NLP工具往往难以有效处理。heb_architecture_corpus通过提供经过OCR处理、清洗和标记的文本数据，为研究者提供了一个高质量的资源，促进了NLP技术在建筑领域的应用和发展，具有重要的学术意义和影响。

衍生相关工作

基于heb_architecture_corpus数据集，已衍生出多项相关研究工作。例如，有研究者利用该数据集开发了针对希伯来语的建筑术语自动识别系统，显著提高了术语提取的准确性。此外，还有研究团队利用该数据集进行建筑法规的语义分析，为建筑行业的合规性检查提供了新的技术手段。这些衍生工作不仅丰富了NLP在建筑领域的应用，也为相关领域的研究提供了新的视角和方法。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集