five

IFC, Uniclass

收藏
arXiv2024-11-19 更新2024-11-21 收录
下载链接:
https://github.com/mehrzadshm/built-bench-paper
下载链接
链接失效反馈
官方服务:
资源简介:
本研究使用的数据集包括IFC和Uniclass,这两个数据集分别由buildingSMART International和国家建筑规范(NBS)维护。IFC数据集提供了建筑和基础设施项目的全面数字描述,而Uniclass则是一个统一的建筑环境分类系统,涵盖了超过8000种产品类型。数据集的创建过程包括从原始数据源中提取产品名称、描述和标签,并通过生成语言模型进行数据增强和校对。这些数据集主要用于评估预训练文本嵌入模型在建筑资产信息管理中的对齐效果,旨在解决建筑资产数据的多源性和多学科性带来的对齐挑战。

The datasets utilized in this study include IFC and Uniclass, which are maintained by buildingSMART International and the National Building Specification (NBS) respectively. The IFC dataset provides comprehensive digital descriptions of construction and infrastructure projects, while Uniclass is a unified built environment classification system covering over 8,000 product types. The development of these datasets involves extracting product names, descriptions and tags from their original data sources, followed by data augmentation and proofreading using generative language models. These datasets are primarily employed to evaluate the alignment performance of pre-trained text embedding models in built asset information management, aiming to address the alignment challenges brought by the multi-source and multi-disciplinary nature of built asset data.
提供机构:
高等技术学院
创建时间:
2024-11-19
搜集汇总
数据集介绍
main_image_url
构建方式
该数据集的构建基于两个著名的建筑资产数据分类词典:Industry Foundation Classes (IFC) 和 Uniclass。IFC由buildingSMART International发布和维护,提供建筑和基础设施项目的全面数字描述,旨在促进不同软件应用和利益相关者之间的互操作性和信息交换。Uniclass由National Building Specification (NBS)开发和维护,是一个统一的建筑环境分类系统,涵盖超过8,000种产品类型。数据提取过程包括从Uniclass的公开CSV格式产品表中直接提取产品名称和类别,以及通过脚本自动合成产品描述。对于IFC,通过解析官方模式内容并利用开源Python库进行程序化访问,提取感兴趣的实体及其类型枚举和定义。最终,通过数据增强和校对步骤,确保产品名称和描述的准确性和一致性。
特点
该数据集的特点在于其广泛的多学科覆盖和详细的粒度。它涵盖了建筑环境中的多个子领域,包括建筑、结构、机械和电气系统,确保了数据集的多样性和全面性。此外,数据集通过合成和校对步骤,提供了高质量的产品描述,增强了文本的语义丰富性和自然性。这些特点使得该数据集在评估和训练文本嵌入模型时,能够更好地捕捉建筑资产技术术语的复杂语义。
使用方法
该数据集主要用于评估和比较最先进的文本嵌入模型在建筑资产信息管理中的表现。通过在三个主要任务(聚类、检索和重排序)上的测试,研究人员可以评估模型在不同任务和输入长度下的性能。数据集的公开发布和开源库的维护,鼓励了未来在该领域的研究和模型改进。此外,该数据集还可作为丰富的文本语料库,支持训练特定任务的语言模型,如信息提取等下游任务。
背景与挑战
背景概述
IFC, Uniclass数据集由Mehrzad Shahinmoghadam和Ali Motamedi在École de technologie supérieure创建,旨在评估预训练文本嵌入模型在建筑资产信息对齐中的性能。该数据集的核心研究问题是如何自动化地将建筑资产信息映射到既定的数据分类系统和分类法中,以支持有效的资产管理。通过比较最先进的文本嵌入模型,研究团队希望识别这些模型在捕捉建筑资产技术术语复杂语义方面的有效性。该研究不仅填补了领域内的空白,还为未来的研究提供了基准,推动了建筑信息管理领域的技术进步。
当前挑战
IFC, Uniclass数据集面临的挑战主要集中在两个方面:一是建筑资产数据的多样性和多学科性,导致不同项目和利益相关者使用不同的格式和术语,增加了数据对齐的复杂性;二是构建过程中需要处理大量技术文本元素,这些元素的复杂性使得自动化对齐过程依赖于领域专家的输入。此外,预训练语言模型在处理建筑资产特定术语时的表现尚未得到全面评估,这为未来的研究提出了新的方向,特别是在领域适应技术方面的探索。
常用场景
经典使用场景
IFC和Uniclass数据集的经典使用场景主要集中在建筑资产信息的自动化映射与分类。通过利用预训练的文本嵌入模型,这些数据集能够有效处理建筑资产数据的复杂性,实现从多源数据到标准化分类系统的自动对齐。具体任务包括聚类、检索和重排序,这些任务旨在评估模型在捕捉和表示建筑资产技术术语语义方面的能力,从而提升数据对齐的准确性和效率。
衍生相关工作
IFC和Uniclass数据集的发布催生了大量相关研究工作,特别是在建筑信息模型(BIM)和自然语言处理(NLP)的交叉领域。例如,研究者们利用这些数据集开发了新的文本嵌入模型,以提高建筑资产信息的自动化处理能力。此外,这些数据集还被用于评估和改进现有的NLP技术,如BERT和GPT系列模型,在建筑环境中的应用效果。这些衍生工作不仅推动了技术的发展,也为建筑行业的数字化转型提供了重要的技术支持。
数据集最近研究
最新研究方向
在建筑资产信息管理领域,最新的研究方向集中在利用预训练文本嵌入模型来实现建筑资产信息的自动化映射。这一研究方向的兴起源于建筑资产数据的复杂性和多样性,传统的映射方法依赖于领域专家的手动操作,效率低下且成本高昂。预训练大型语言模型通过生成动态、上下文敏感的嵌入,能够捕捉建筑资产技术术语的复杂语义,从而显著提升自动化数据映射的准确性和效率。当前的研究不仅关注模型在聚类、检索和重排序任务中的表现,还强调了领域适应技术的重要性,以确保模型在特定建筑资产数据环境中的有效性。此外,公开发布基准测试资源,以支持未来在该领域的评估和研究,也是当前研究的一个重要趋势。
相关研究论文
  • 1
    Benchmarking pre-trained text embedding models in aligning built asset information高等技术学院 · 2024年
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作