Data Sprout

Name: Data Sprout
Creator: 智能数据与知识服务部，德国人工智能研究中心有限公司，凯泽斯劳滕，德国
Published: 2021-04-28 13:47:32
License: 暂无描述

arXiv2021-04-28 更新2024-06-21 收录

下载链接：

https://github.com/mschroeder-github/datasprout

下载链接

链接失效反馈

官方服务：

资源简介：

Data Sprout是由德国人工智能研究中心开发的用于生成模拟真实企业数据的数据生成器。该数据集通过模仿知识工作者在数据管理中的行为模式，生成具有高度真实性的合成数据。数据集的创建过程基于11种不同的数据生成模式，这些模式是从实际工业项目中的电子表格中提取的。Data Sprout的应用领域主要在于评估知识图谱构建方法的有效性，通过生成与真实数据集具有相同复杂性的合成数据，来验证知识图谱构建技术的性能。

Data Sprout is a data generator developed by the German Research Center for Artificial Intelligence for creating simulated real-world enterprise data. It produces highly authentic synthetic data by mimicking the behavioral patterns of knowledge workers during data management operations. The development of Data Sprout is grounded in 11 distinct data generation patterns extracted from spreadsheets obtained from actual industrial projects. The primary application scope of Data Sprout lies in evaluating the effectiveness of knowledge graph construction methods: it generates synthetic data with complexity comparable to real-world datasets to validate the performance of knowledge graph construction technologies.

提供机构：

智能数据与知识服务部，德国人工智能研究中心有限公司，凯泽斯劳滕，德国

创建时间：

2021-04-28

搜集汇总

数据集介绍

构建方式

在知识图谱构建领域，真实的企业与个人数据常因保密性无法公开，这阻碍了相关评估工作的开展。Data Sprout数据集通过合成生成方法应对这一挑战，其构建过程基于从工业级真实电子表格中提炼出的11种生成模式。这些模式捕捉了知识工作者在数据录入与管理中的习惯性行为，例如多实体单单元格存储、数值信息文本化呈现等。生成器以给定的RDF知识图谱为输入，依据激活的模式动态生成电子表格，通过引入随机选择与噪声注入，模拟真实数据中的复杂性与歧义性，从而创造出既逼真又可自由扩展的合成数据集。

特点

Data Sprout数据集的核心特点在于其高度可控的逼真性与模式驱动的复杂性。数据集并非简单随机生成，而是深度模仿了真实工业场景中知识工作者创建数据时产生的特定模式与不规则性。这些模式涵盖了布局、建模与格式化等多个维度，例如通过颜色编码属性值、使用多种表面形式指代同一实体，或在单元格中混合多类信息。这种设计使得生成的数据集不仅在外观上接近真实数据，更在结构复杂性和内在歧义性上与之匹配，从而为知识图谱构建任务提供了极具挑战性的评估基准。

使用方法

该数据集主要用于评估从非结构化或半结构化数据（特别是电子表格）中构建知识图谱的各种方法。研究人员首先提供一个目标RDF知识图谱作为语义蓝图，随后在Data Sprout生成器中配置所需的生成模式组合。生成器据此输出包含特定模式特征的电子表格。由于生成过程完整记录了每个单元格内容对应的原始RDF语句（即来源信息），这些信息可作为评估时的真实标签。通过比较知识图谱构建工具从合成数据中提取出的图谱与原始蓝图，研究者能够量化评估工具的准确性与鲁棒性，其评估结论可有效迁移至具有相似模式特征的现实保密数据上。

背景与挑战

背景概述

在知识图谱构建领域，评估方法常受限于真实标注数据的稀缺性，尤其是涉及个人与企业敏感信息时，保密性要求阻碍了数据集的公开共享。为此，德国人工智能研究中心（DFKI）与凯泽斯劳滕工业大学的研究团队于近年提出了Data Sprout数据集，旨在通过合成数据生成技术模拟真实场景下的电子表格数据。该数据集的核心研究问题聚焦于如何利用从实际工业数据中提取的生成模式，创建既具真实性又免于隐私泄露的评估资源，从而推动知识图谱构建方法在工业应用中的有效验证。

当前挑战

Data Sprout数据集所解决的领域挑战在于知识图谱构建评估中真实数据的不可得性，其通过模拟知识工作者在电子表格中常见的11种数据组织模式，如多实体单单元格、数值信息文本化等，以生成复杂且富含噪声的合成数据，从而测试构建算法在混乱数据环境下的鲁棒性。在构建过程中，挑战主要体现在从实际工业数据中抽象出可泛化的生成模式，并确保生成器能灵活组合这些模式以产生多样化的数据变体，同时保持生成数据与真实数据在结构复杂性上的一致性，以支持有效的性能评估。

常用场景

经典使用场景

在知识图谱构建领域，评估方法常受限于真实数据的保密性，Data Sprout 通过模拟知识工作者在电子表格中展现的行为模式，生成高度逼真的合成数据集。该数据集最经典的使用场景是作为基准测试工具，用于系统性地验证和比较不同知识图谱构建算法的性能，研究者可依据特定模式组合生成复杂数据，从而在可控环境下模拟工业场景中的数据异质性与噪声。

解决学术问题

Data Sprout 有效解决了知识图谱构建研究中因数据隐私导致的公开数据集匮乏问题。通过捕捉真实数据中的11种生成模式，如“多实体单单元格”和“数值信息文本化”，该数据集能够模拟实际业务中常见的歧义与不一致性，为评估图谱构建方法的鲁棒性提供标准化测试环境，从而推动领域内评估方法的科学化与可复现性。

衍生相关工作

基于 Data Sprout 的模式语言框架，衍生出多项聚焦于数据生成与知识图谱构建的经典研究。例如，后续工作进一步扩展了模式库以涵盖更多领域特定结构，并探索了生成数据在机器学习模型泛化能力测试中的应用。这些研究深化了对合成数据可信度的理解，促进了知识图谱评估范式的标准化发展。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集