ArchiBERTo

github2022-12-06 更新2024-05-31 收录

下载链接：

https://github.com/Mrk624/ArchiBERTo-dataset-and-code

下载链接

链接失效反馈

官方服务：

资源简介：

ArchiBERTo是一个用于意大利设计和建筑领域的多标签分类器，旨在将指导设计文档中的质量目标转换为标准和目标的排名。该数据集由专家合作制作，用于训练和验证BERT模型，以实现文本的多标签分类。

ArchiBERTo is a multi-label classifier designed for the Italian design and architecture sector, aimed at transforming quality objectives in design guidance documents into rankings of standards and goals. This dataset, collaboratively produced by experts, is utilized for training and validating BERT models to achieve multi-label text classification.

创建时间：

2022-09-07

原始信息汇总

数据集概述

数据集名称

ArchiBERTo

数据集目的

用于将意大利设计和建筑领域的指导设计文件（DIP）中的质量目标转换为标准和目标的排名，通过多标签文本分类（MTC）技术实现。

数据集特点

多标签分类：允许预测和分配多个非互斥的预定义标签，代表委托方的质量目标和需求。
BERT模型应用：使用预训练的BERT语言模型进行文本分类，通过微调技术优化模型性能。

数据集构建

标签定义：由不同领域的专家和终端用户合作定义，包括建筑师、设计师、教育家、农学家和市民。
数据集划分：随机分为训练集（80%）和验证集（20%）。
标签过程：每位专家独立提出标签假设，通过讨论达成共识，以减少主观性。

模型训练与评估

模型微调：通过定义超参数进行BERT模型的微调。
性能评估：使用F1-score作为评估指标，比较模型预测与人工标注的准确性，同时监控训练和验证损失曲线以防止过拟合或欠拟合。

可用资源

Jupyter笔记本代码
训练和验证数据集

该数据集通过多领域专家的合作，旨在通过BERT模型实现对设计和建筑领域文本的高效准确分类。

搜集汇总

数据集介绍

构建方式

ArchiBERTo数据集的构建过程体现了多学科合作的深度与广度。该数据集的核心任务是将意大利设计与建筑领域的质量目标从自然语言转化为可计算的标准和目标。为此，数据集通过多标签文本分类（MTC）技术实现，允许为单个文本分配多个非互斥的标签。数据集的构建始于标签定义阶段，由建筑师、设计师、教育学家等多领域专家共同参与，确保标签能够全面反映委托方的质量目标。随后，数据集被随机划分为训练集和验证集，比例为8:2。训练集用于微调BERT模型，而验证集则用于评估模型性能。数据集的标注过程采用独立标注与共识达成相结合的方式，以减少主观偏差，确保标注结果的客观性与准确性。

使用方法

ArchiBERTo数据集的使用方法围绕多标签分类任务展开。用户可通过Jupyter Notebook中的.ipynb代码访问数据集，并利用训练集对BERT模型进行微调。微调过程中，用户需定义超参数，并通过训练与验证损失曲线监控模型性能，以避免过拟合或欠拟合现象。验证集用于评估模型的分类准确性，F1分数作为主要评估指标。数据集的使用不仅限于模型训练，还可用于研究多标签分类技术在建筑与设计领域的应用潜力。通过结合专家标注与机器学习技术，ArchiBERTo为建筑项目的质量目标分析提供了高效且可靠的解决方案。

背景与挑战

背景概述

ArchiBERTo数据集由意大利设计与建筑领域的专家团队开发，旨在通过自然语言处理技术将设计指导文件（DIP）中的质量目标转化为可计算的标准和目标排名。该数据集的核心研究问题聚焦于多标签文本分类（MTC），即对单个文本或句子自动分配多个非互斥的预定义标签。ArchiBERTo基于BERT模型，结合微调技术，能够有效处理建筑领域中的复杂语言表达。数据集的构建过程涉及多个领域的专家合作，包括建筑师、设计师、教育学家和农学家等，确保了标签定义的多样性和准确性。该数据集不仅为建筑领域的自然语言处理提供了重要支持，还为多标签分类任务的研究提供了新的视角和方法。

当前挑战

ArchiBERTo数据集在构建和应用过程中面临多重挑战。首先，多标签文本分类任务本身具有较高的复杂性，尤其是在建筑领域，文本中可能包含大量专业术语和复杂的语义结构，这对模型的语义理解能力提出了更高要求。其次，数据集的构建依赖于多领域专家的协作，如何在不同专家的意见之间达成一致并避免主观偏差成为一大难题。此外，BERT模型的微调过程需要精心设计超参数，以避免过拟合或欠拟合现象，这对模型的性能评估和优化提出了挑战。最后，尽管数据集通过专家集体智慧减少了主观性，但在实际应用中，如何确保模型能够准确反映多样化的用户需求仍是一个亟待解决的问题。

常用场景

经典使用场景

ArchiBERTo数据集在意大利设计和建筑知识领域的多标签文本分类任务中展现了其经典应用场景。该数据集通过将设计指导文件（DIP）中的质量目标转化为计算可处理的标准和目标排名，实现了对自然语言信息的自动化处理。其核心任务是将文本分类为多个非互斥的标签，这些标签代表了委托方的质量目标和需求。通过BERT模型的微调，ArchiBERTo能够高效地处理复杂的文本信息，为建筑和设计领域的决策提供支持。

解决学术问题

ArchiBERTo数据集解决了建筑和设计领域中的文本信息自动化处理难题。传统方法依赖于人工标注，存在主观性和效率低下的问题。该数据集通过多标签分类技术，将专家知识集体化，避免了单一专家的主观判断偏差。同时，BERT模型的引入提升了文本分类的准确性和效率，为建筑领域的自然语言处理研究提供了新的技术路径。

实际应用

在实际应用中，ArchiBERTo数据集被广泛用于建筑项目的设计指导文件分析。通过自动化处理DIP文档中的质量目标，建筑师和设计师能够快速提取关键信息，优化设计方案。此外，该数据集还可用于建筑教育和培训，帮助学员理解复杂的设计需求和质量标准。其高效的多标签分类能力为建筑行业的数字化转型提供了重要支持。

数据集最近研究