Synthetic Dataset

github2021-08-30 更新2024-05-31 收录

下载链接：

https://github.com/UCHI-DB/comp-datasets

下载链接

链接失效反馈

官方服务：

资源简介：

PIDS在实验中使用了四个合成数据集：电话号码、IPv6地址、时间戳和地址。电话号码和IPv6数据集的每个字段值是从所有可用值中随机抽样的。时间戳数据集是从1970-01-01到2069-12-31的10年时间跨度内随机抽样的。地址数据集是从包含800,000条记录的字典中随机抽样的。

In the experiment, PIDS utilized four synthetic datasets: phone numbers, IPv6 addresses, timestamps, and addresses. Each field value in the phone number and IPv6 datasets was randomly sampled from all available values. The timestamp dataset was randomly sampled from a 10-year span between 1970-01-01 and 2069-12-31. The address dataset was randomly sampled from a dictionary containing 800,000 records.

创建时间：

2019-11-26

原始信息汇总

数据集概述

真实世界数据集

数量与规模：收集了约20000个列式数据集，来自大约1200个表，总数据量达500G。
数据类型：包含整数、日期、价格、地址等多种数据类型。
数据来源：
- 政府数据门户：如Open Government Data、NYC、Chicago等。
- 服务器日志：Argonne Server Logs（需请求发布权限）。
- GIS数据：如ArcGIS Open Data、Esri Open Data。
- 社交网络：如Bikeshare、Yelp。
- 机器学习数据集：如UCI Repo。

合成数据集

类型与示例：
- 电话号码：示例：(123)456-7890
- IPv6地址：示例：1234:5678:90AB:CDEF:3323:5678:90AB:CDEF
- 时间戳：示例：2014-06-01 23:14:29 4249.12345
- 地址：示例：123 Maple Street, Suite P, Chicago, Cook County, IL, 60012
生成方式：
- 电话号码与IPv6：从所有可用值中随机抽样。
- 时间戳：从1970-01-01至2069-12-31的10年时间跨度内随机抽样。
- 地址：从包含800,000条记录的字典中随机抽样。
源代码：该仓库包含生成这些合成数据集的源代码。

搜集汇总

数据集介绍

构建方式

Synthetic Dataset的构建依托于一个自动化框架，该框架能够从多种格式的文件中提取数据列，并进行组织和持久化存储。框架支持包括csv、txt、JSON和MS Excel在内的多种输入格式，并能够自动识别列数据类型，实现无人值守的数据收集。通过这一框架，研究团队从约1200个表格中收集了约20000个列数据集，总数据量达到500G，涵盖了丰富的数据类型和分布。

特点

Synthetic Dataset的特点在于其多样性和广泛性。数据集来源于多个真实世界的数据源，包括政府数据门户、服务器日志、地理信息系统数据以及社交网络等。这些数据涵盖了从整数、日期、价格到地址等多种数据类型，且数据分布多样，为数据分析和机器学习提供了丰富的实验材料。此外，数据集还包含了四种合成数据，如电话号码、IPv6地址、时间戳和地址，这些数据通过随机采样生成，确保了数据的随机性和广泛性。

使用方法

Synthetic Dataset的使用方法主要通过提供的API进行。用户可以通过API从数据列中提取定制化的特征，以满足不同的分析需求。数据集适用于多种数据分析场景，包括数据挖掘、机器学习模型训练和评估等。用户可以根据需要下载数据集，并通过框架提供的工具进行进一步的数据处理和分析。此外，数据集还包含了生成合成数据的源代码，用户可以根据需要生成特定类型的数据，以扩展数据集的应用范围。

背景与挑战

背景概述

Synthetic Dataset是由研究团队开发的一个自动化框架生成的合成数据集，旨在支持数据分析和评估。该框架能够处理多种输入格式，如csv、txt、JSON和MS Excel文件，并支持自动识别列数据类型。通过这一框架，研究团队从约1200个表中收集了20000个列式数据集，总数据量达500G，涵盖了丰富的数据类型和分布。这些数据集主要来源于政府数据门户、服务器日志、GIS数据、社交网络和机器学习数据集等多个领域，具有广泛的应用价值。

当前挑战

Synthetic Dataset在构建过程中面临的主要挑战包括数据源的多样性和数据类型的复杂性。由于数据集来源于多个不同的领域，如何统一处理这些异构数据并确保数据质量是一个重要问题。此外，自动化框架需要能够高效地识别和处理各种数据类型，这对算法的鲁棒性和准确性提出了较高要求。在应用层面，如何从这些多样化的数据中提取出有意义的特征，并支持进一步的分析和模型训练，也是该数据集需要解决的核心挑战。

常用场景

经典使用场景

Synthetic Dataset在数据科学和机器学习领域中被广泛用于模型训练和算法验证。其包含的电话号码、IPv6地址、时间戳和地址等数据类型，为研究人员提供了一个多样化的数据环境，用于测试数据解析、格式化和类型识别的算法。这些数据集特别适用于开发自动化数据收集和处理框架，帮助研究人员在模拟真实世界数据分布的情况下进行实验。

实际应用

在实际应用中，Synthetic Dataset被广泛用于政府数据门户、服务器日志分析、地理信息系统（GIS）以及社交网络数据的处理。例如，政府机构可以利用该数据集测试开放数据的发布和共享机制，而企业则可以通过模拟服务器日志数据来优化其日志分析工具。此外，该数据集还为机器学习模型的训练提供了丰富的实验数据，帮助开发者在真实场景中验证模型的性能。

衍生相关工作

基于Synthetic Dataset，许多经典研究工作得以展开。例如，研究人员开发了自动化数据收集和处理框架，能够高效地从多种数据源中提取和整理数据。此外，该数据集还催生了一系列关于数据清洗、格式化和类型识别的研究，推动了数据预处理技术的发展。这些工作不仅提升了数据处理的自动化水平，还为后续的数据分析和机器学习应用奠定了坚实的基础。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集