builtbench-clustering-s2s

Hugging Face2025-01-30 更新2025-02-10 收录

下载链接：

https://huggingface.co/datasets/mehrzad-shahin/builtbench-clustering-s2s

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含用于文本分类任务的英语句子和标签。数据集的特征包括'sentences'和'labels'两个序列，数据类型为字符串。数据集包含一个测试集，大小为195475字节，包含18个示例。数据集的下载大小为47012字节，总大小为195475字节。数据集的配置名为'default'，数据文件路径为'data/test-*'。数据集的语言为英语，规模类别为1K<n<10K，任务类别为文本分类。数据来源包括buildingSmart International发布的Industry Foundation Classes (IFC)和NBS发布的Uniclass产品表。数据集的许可证为cc-by-nc-nd-4.0。

创建时间：

2025-01-30

搜集汇总

数据集介绍

构建方式

在建筑信息领域，builtbench-clustering-s2s数据集的构建采用了IFC标准与NBS的Uniclass产品表作为数据源，通过提取序列化的字符串信息，形成包含'sentences'与'labels'字段的样本集，旨在为文本分类任务提供标准化的评测平台。

特点

该数据集具有以下显著特点：首先，其专注于建筑资产信息的文本嵌入模型性能评估，其次，数据规模适中，包含约1K至10K条样本，便于不同模型间的性能比较，最后，遵循cc-by-nc-nd-4.0许可，保证了数据集的合法使用与共享。

使用方法

使用该数据集时，用户需遵循相应的许可协议，通过HuggingFace提供的平台下载包含测试split的数据文件。之后，用户可以根据数据集中的'sentences'与'labels'字段进行模型训练、验证与测试，以评估其在建筑信息文本分类任务中的表现。

背景与挑战

背景概述

builtbench-clustering-s2s数据集，作为建筑资产信息对齐领域的权威资源，由Shahinmoghadam和Motamedi于2024年开发。该数据集汇集了建筑行业的基础数据，旨在评估预训练文本嵌入模型在建筑资产信息对齐任务中的性能。其构建依托于buildingSmart International发布的Industry Foundation Classes (IFC)及NBS的Uniclass产品表，对于推动建筑信息模型标准化及智能建筑研究领域具有重要意义。

当前挑战

该数据集在构建过程中面临的主要挑战包括：确保数据质量与一致性，处理建筑行业专业术语的多样性，以及实现不同数据源之间的有效融合。此外，在研究领域内，如何利用该数据集解决建筑资产信息对齐的难题，以及如何准确评估预训练模型的性能，是该数据集应用中的两大挑战。

常用场景

经典使用场景

在建筑信息管理领域，builtbench-clustering-s2s数据集被广泛应用于文本分类任务，其经典使用场景在于对建筑资产信息进行有效的文本嵌入模型基准测试，以便对预训练模型在建筑行业特定语境下的性能进行评估。

衍生相关工作

基于此数据集，衍生出了一系列相关研究工作，如Shahinmoghadam和Motamedi在2024年的研究论文中，对预训练文本嵌入模型在建筑资产信息对齐中的性能进行了基准测试，这些研究为建筑信息处理技术的发展提供了新的视角和方法。

数据集最近研究