synthetic_dataset

github2024-05-21 更新2024-05-31 收录

下载链接：

https://github.com/lovit/synthetic_dataset

下载链接

链接失效反馈

官方服务：

资源简介：

用于机器学习的合成数据生成器，可以生成多种类型的复杂合成数据集，包括但不限于双月形、螺旋形、瑞士卷、径向分布等，适用于分类和聚类任务的训练和测试。

A synthetic data generator for machine learning that can generate various types of complex synthetic datasets, including but not limited to two-moons shapes, spiral shapes, Swiss rolls, and radial distributions, and is suitable for the training and testing of classification and clustering tasks.

创建时间：

2018-04-27

原始信息汇总

数据集概述

本数据集提供了一系列用于生成复杂合成数据的功能，包括分类和聚类数据的生成，以及相应的可视化方法。以下是数据集的主要功能和示例：

分类数据生成

Two moon:
- 使用 make_moons 函数生成两半月形数据。
- 示例参数：n_samples=500, xy_ratio=2.0, x_gap=-0.2, y_gap=0.2, noise=0.1。
Spiral:
- 使用 make_spiral 函数生成螺旋形数据。
- 示例参数：n_samples_per_class=500, n_classes=3, n_rotations=2.5, gap_between_spiral=0.1, noise=0.2。
Swiss roll:
- 使用 make_swiss_roll 函数生成瑞士卷形数据。
- 示例参数：n_samples=3000, n_rotations=3, gap=0.5, thickness=0.0, width=10.0。
Radial:
- 使用 make_radial 函数生成径向分布数据。
- 示例参数：n_samples_per_cluster=100, n_classes=2, n_clusters_per_class=3, gap=0.1。
Two layer radial:
- 使用 make_two_layer_radial 函数生成双层径向分布数据。
- 示例参数：n_samples_per_cluster=100, n_classes=2, n_clusters_per_class=3, gap=0.0。
Rectangular:
- 使用 make_rectangular 函数生成矩形分布数据。
- 示例参数：n_samples=500, x_min=0, x_max=10, y_min=0, y_max=10。
Triangular:
- 使用 make_triangular 函数生成三角形分布数据。
- 示例参数：n_samples=500, upper=True/False, x_min=0, x_max=10, y_min=0, y_max=10。
Decision Tree datasets:
- 使用 make_predefined_data 函数生成决策树数据。
- 示例参数：decision-tree-1/decision-tree-2, n_samples=2000。
Composition of rectangulars:
- 使用 make_complex_rectangulars 函数生成复杂矩形组合数据。
- 示例参数：n_samples=3000, n_classes=3, n_rectangulars=20, volume=0.5。
Multilayer rectangulars:
- 使用 make_multilayer_rectangulars 函数生成多层矩形数据。
- 示例参数：rec_size=100, n_layers=3, random_label=True/False, n_classes=5, rotate_radian=np.pi/4。

聚类数据生成

Simple clusters:
- 使用 make_rectangular_clusters 函数生成简单矩形聚类数据。
- 示例参数：n_clusters=8, size_min=10, size_max=15, volume=0.2。
Circular clusters:
- 使用 make_circular_clusters 函数生成圆形聚类数据。
- 示例参数：n_clusters=10, r_min=0.05, r_max=0.15, equal_density=True, noise=0.05。

回归数据生成

Linear regression:
- 使用 make_linear_regression_data 函数生成线性回归数据。
- 示例参数：n_samples=300, x_range=(-1,1), noise=0.5。
Polynomial linear regression:
- 使用 make_polynomial_regression_data 函数生成多项式线性回归数据。
- 示例参数：degree=5, noise=0.2, seed=11, x_range=(-1.5, 1.5)。
Randomwalk regression:
- 使用 make_randomwalk_timeseries_data 函数生成随机漫步时间序列数据。
- 示例参数：n_repeats=3, noise=0.1, std=10, seed=0。
Stepwise linear regression:
- 使用 make_stepwise_regression_data 函数生成逐步回归数据。
- 示例参数：n_steps=5, noise=0.1, seed=5。

可视化方法

数据集提供了多种可视化函数，如 scatterplot 和 lineplot，用于展示生成的数据。
可视化函数支持多种参数设置，如 height, width, title 等，以定制化展示效果。

依赖

数据集的可视化函数依赖于 Bokeh >= 1.4.0 和 Plotly >= 4.3.0。

搜集汇总

数据集介绍

构建方式

synthetic_dataset数据集通过一系列复杂的生成函数构建，这些函数位于soydata.data模块中。数据集的生成涵盖了多种模式，包括但不限于双月形、螺旋形、瑞士卷、径向分布、矩形和三角形等。每个生成函数都允许用户自定义参数，如样本数量、噪声水平、旋转角度等，从而生成具有特定特征的合成数据。此外，数据集还支持生成决策树数据集、多层矩形数据集以及简单和复杂的聚类数据集。这些生成函数的设计旨在模拟真实世界中的多种数据分布，为机器学习和数据分析提供丰富的实验材料。

特点

synthetic_dataset数据集的主要特点在于其高度可定制性和多样性。用户可以根据研究需求调整数据集的复杂度、噪声水平和结构特征，从而生成符合特定实验要求的数据。此外，数据集支持多种数据模式的生成，包括但不限于分类、聚类和回归任务的数据。这些数据模式不仅覆盖了常见的二维数据分布，还包括三维数据如瑞士卷，以及具有复杂结构的多层矩形数据。这种多样性使得该数据集在测试和验证算法性能时具有广泛的应用潜力。

使用方法

使用synthetic_dataset数据集，首先需要通过poetry安装相关依赖。随后，用户可以导入soydata.data和soydata.visualize模块，利用其中的生成函数创建所需的数据集。例如，通过make_moons函数生成双月形数据，或通过make_spiral函数生成螺旋形数据。生成的数据可以通过soydata.visualize模块中的可视化函数进行展示，如scatterplot或lineplot。此外，用户还可以根据需要调整生成函数的参数，以获得符合特定实验要求的数据集。这种灵活的使用方式使得该数据集在各种机器学习和数据分析任务中都能发挥重要作用。

背景与挑战

背景概述

synthetic_dataset数据集是由一群专注于机器学习和数据科学的研究人员开发，旨在为复杂数据生成和可视化提供一个全面的工具包。该数据集的创建时间不详，但其主要研究人员或机构通过提供丰富的数据生成函数和可视化工具，显著推动了数据科学领域的发展。核心研究问题围绕如何生成高质量的合成数据，以支持各种机器学习算法的测试和验证。synthetic_dataset的影响力在于其能够生成多种复杂模式的数据，如双月形、螺旋形和瑞士卷等，这些数据在图像分类、聚类分析和回归分析等领域具有广泛的应用价值。

当前挑战

synthetic_dataset在解决领域问题方面面临的主要挑战包括生成数据的复杂性和多样性。为了模拟真实世界的数据分布，数据集需要能够生成具有不同几何形状和分布特征的合成数据，这要求数据生成算法具有高度的灵活性和精确性。此外，构建过程中遇到的挑战包括确保生成的数据具有统计上的合理性和一致性，以及如何有效地将这些数据应用于实际的机器学习模型中。这些挑战不仅涉及技术层面的算法优化，还需要对数据科学和机器学习领域的深入理解。

常用场景

经典使用场景

synthetic_dataset数据集的经典使用场景主要集中在机器学习和数据科学领域，用于生成复杂且多样化的合成数据。这些数据可以模拟各种分类、聚类和回归问题，如双月形数据（Two moon）、螺旋形数据（Spiral）、瑞士卷数据（Swiss roll）等。通过这些合成数据，研究人员和开发者可以测试和验证不同算法的性能，特别是在处理非线性数据结构和高维数据时。

衍生相关工作

基于synthetic_dataset数据集，许多相关的经典工作得以展开。例如，研究人员利用该数据集生成的复杂数据结构，开发了新的分类和聚类算法，如基于双月形数据的非线性分类器、基于螺旋形数据的层次聚类方法等。此外，该数据集还激发了关于数据生成和可视化技术的研究，推动了数据科学领域的发展。

数据集最近研究