tabular-data-to-business-glossaries-annotation-dataset

github2024-08-01 更新2024-08-09 收录

下载链接：

https://github.com/zeenea/tabular-data-to-business-glossaries-annotation-dataset

下载链接

链接失效反馈

官方服务：

资源简介：

这是一个从data.gov收集的表格数据集，通过大型语言模型标注了业务词汇表。数据集包括从data.gov收集的226个表格数据、各种业务词汇表以及表格数据与业务词汇表实体之间的对齐。数据集的元数据包括发布组织、数据集名称、列名、标签列表、主题、访问级别和许可证。

This is a tabular dataset sourced from data.gov, where business vocabularies have been annotated using Large Language Models (LLMs). The dataset contains 226 tabular data entries collected from data.gov, a diverse set of business vocabularies, as well as the alignment relationships between entities in the tabular data and those in the business vocabularies. The metadata associated with the dataset includes the publishing organization, dataset name, column names, tag list, topics, access level, and license.

创建时间：

2024-07-30

原始信息汇总

数据集概述

1. 数据集描述

该数据集包含从data.gov收集的表格数据（数据集和列）、各种业务术语表以及表格数据与业务术语表实体之间的对齐信息。数据集的选择基于以下原因：

易于使用的API
大量公共和开源数据
表格数据集带有主题和标签列表
表格列具有有意义的名称

数据集内容

内容描述	说明
data/	收集的表格数据，以csv文件形式存储
metadata/	数据集、列、主题和标签的元数据
business-glossaries/	业务术语表，以csv文件形式存储
alignments/	列和数据集与业务术语表的对齐信息
figures/	统计图表
scripts/	用于数据集生成的Python脚本

2. 数据集构建

2.1. 数据收集和准备

从data.gov收集了226个与交通领域相关的数据集（表格）。数据集的统计信息如下：

统计信息	数值
数据集数量	226
列数量	5232
每个数据集的最大列数	381
每个数据集的最小列数	2
每个数据集的平均列数	23
每个数据集的最大行数	100
每个数据集的最小行数	4
每个数据集的平均行数	62

每个数据集的元数据包括发布组织、数据集名称、列名称、标签列表、主题、访问级别和许可证。主题和标签经过清洗后，按主题分组（结果存储在theme_to_tags_metadata.json），共得到34个主题，每个主题有相应的标签列表。

2.2. LLM生成的业务术语表

使用大型语言模型mistralai/Mistral-7B-Instruct-v0.3生成业务术语表。每个主题的标签列表作为输入，LLM生成与主题和标签相关的业务概念层次结构。业务术语表的统计信息如下：

统计信息	数值
业务术语表数量	34
每个术语表的最大业务实体数	26
每个术语表的最小业务实体数	4
每个术语表的平均业务实体数	14
每个术语表的最大层次数	9
每个术语表的最小层次数	2
每个术语表的平均层次数	4

2.3. LLM生成的对齐信息

使用相同的LLM模型生成对齐信息。对于每个数据集，LLM生成数据集列与相应业务术语表实体之间的对齐信息。对齐信息的统计信息如下：

统计信息	数值
对齐的列数量	1017
对齐列的比率	19.02%
对齐的数据集数量	226
对齐数据集的比率	100%

3. 许可证

该数据集遵循CC BY-NC-SA 4.0许可证。部分数据集受特定许可证约束，详见column_and_dataset_metadata.csv。

搜集汇总

数据集介绍

构建方式

该数据集的构建始于从data.gov收集的226个与交通领域相关的表格数据集。通过API提取这些数据集后，进行了数据清洗和元数据整理，包括数据集的主题和标签。随后，利用大型语言模型（LLM）如mistralai/Mistral-7B-Instruct-v0.3，根据每个主题的标签生成业务术语表。最后，通过LLM生成了表格数据列与业务术语表实体之间的对齐关系。整个过程确保了数据集的结构化和语义丰富性。

特点

该数据集的显著特点在于其结构化和语义丰富的特性。首先，数据集包含了来自data.gov的226个表格数据集，每个数据集都附有详细的元数据，包括主题和标签。其次，通过LLM生成的业务术语表提供了丰富的业务概念层次结构，增强了数据集的语义表达能力。最后，生成的对齐关系使得数据列与业务术语表实体之间建立了明确的映射，便于后续的分析和应用。

使用方法

使用该数据集时，用户可以首先访问data目录下的CSV文件，获取原始的表格数据。metadata目录提供了数据集和列的详细元数据，包括主题和标签信息。business-glossaries目录包含了LLM生成的业务术语表，而alignments目录则记录了数据列与业务术语表实体之间的对齐关系。此外，scripts目录下的Python脚本可以帮助用户生成和处理数据集，figures目录则提供了数据集的统计图表，便于用户进行数据分析和可视化。

背景与挑战

背景概述

在智能元数据管理系统领域，Zeenea与LIP6通过一项工业论文项目展开合作，旨在解决数据管理中的关键挑战。该项目聚焦于将表格数据与业务术语表对齐，从而构建了一个名为‘tabular-data-to-business-glossaries-annotation-dataset’的数据集。该数据集的核心研究问题是如何有效地将来自data.gov的表格数据与业务术语表进行对齐，以提升数据管理的智能化水平。通过使用大型语言模型（LLMs），研究人员成功地生成了业务术语表，并实现了数据与术语表的对齐。这一研究不仅推动了元数据管理技术的发展，还为相关领域的研究提供了宝贵的资源。

当前挑战

构建‘tabular-data-to-business-glossaries-annotation-dataset’数据集过程中面临的主要挑战包括：首先，从data.gov收集的226个数据集在列和行数量上存在显著差异，这增加了数据预处理的复杂性。其次，使用大型语言模型生成业务术语表时，如何确保生成的术语表的准确性和一致性是一个重要问题。此外，数据与术语表的对齐过程依赖于复杂的提示设计，这要求研究人员具备高水平的自然语言处理知识。最后，数据集的多样性和复杂性使得确保所有数据集的完全对齐成为一个持续的挑战。

常用场景

经典使用场景

该数据集的经典使用场景主要集中在智能元数据管理系统中，特别是在表格数据与业务术语表的对齐任务中。通过利用大型语言模型（LLMs）生成的业务术语表，该数据集能够有效地将表格数据中的列与业务概念进行映射，从而提升数据管理的智能化水平。这种对齐不仅有助于数据分析师更准确地理解数据内容，还能在数据治理和数据质量管理中发挥重要作用。

衍生相关工作

基于该数据集，研究者们开发了多种数据管理工具和算法，特别是在元数据管理和数据治理领域。例如，一些研究工作利用该数据集进行业务术语表自动生成和数据列对齐的算法优化，提升了数据管理的效率和准确性。此外，该数据集还激发了在数据质量评估和数据治理策略制定方面的创新研究，推动了相关领域的技术进步。

数据集最近研究