Avila, DSDD, MNIST, KDD, KITSUNE, KITSUNE10

github2023-06-05 更新2024-05-31 收录

下载链接：

https://github.com/PKUcoldkeyboard/LOG-Means

下载链接

链接失效反馈

官方服务：

资源简介：

每个数据集的规模为：1. Avila 包含了 10,430 个数据点，每个点有 10 个维度，总计 12 个类。2. DSDD 包含了 58,509 个数据点，每个点有 48 个维度，总计 11 个类。3. MNIST 包含了 60,000 个数据点，每个点有 784 个维度，总计 10 个类。4. KDD 包含了 4,898,431 个数据点，每个点有 34 个维度，总计 23 个类。5. KITSUNE 包含了 20,253,460 个数据点，每个点有 115 个维度，总计 8 个类。6. KITSUNE10 包含了 1,868,224 个数据点，每个点有 115 个维度，总计 8 个类。

Each dataset's scale is specified as follows: 1. Avila: Contains 10,430 data points, each with 10 dimensions, with a total of 12 classes. 2. DSDD: Contains 58,509 data points, each with 48 dimensions, with a total of 11 classes. 3. MNIST: Contains 60,000 data points, each with 784 dimensions, with a total of 10 classes. 4. KDD: Contains 4,898,431 data points, each with 34 dimensions, with a total of 23 classes. 5. KITSUNE: Contains 20,253,460 data points, each with 115 dimensions, with a total of 8 classes. 6. KITSUNE10: Contains 1,868,224 data points, each with 115 dimensions, with a total of 8 classes.

创建时间：

2023-03-21

原始信息汇总

数据集概述

数据集名称

LOG-Means

数据集版本

数据集算法

LOG-Means算法：一种新型、简化的、高效、对大数据集和大搜索空间具有强鲁棒性的簇数目估计方法。采用了二分搜索策略和递归细化策略，分别在大范围和小范围内进行簇数目估计，从而高效估计数据中的簇的个数。

算法实现细节

LOG-Means算法：
- 定义键值数据结构K和M，用于存储k的已评估值和相应的SSE，以及k的已评估值与k和左侧邻值之间相应的SSE Ratio。
- 迭代过程中，分别对klow和khigh进行KMeans聚类，并计算kmid与klow、khigh的SSE Ratio。
k-means||初始化：
- 随机选择一个中心点，计算满足概率条件的多个候选中心点C。
- 迭代r次（r=2），每次迭代取样O(k)个样本，最后得到大约O(kr)个样本。
- 使用带有权重的K-Means++算法从C中筛选出k个中心点。
k-means++初始化：
- 随机选择一个中心点，计算每个点到中心点的距离，选择最远的点作为下一个中心点，重复直到选出k个中心点。
random初始化：
- 随机选择k个点作为中心点。
Elbow算法：
- 对于给定的数据集，分别计算k=1,2,...,kmax的KMeans聚类结果，计算每个k对应的SSE，选择拐点对应的k值作为簇数目估计值。

环境需求

C++编译器（支持C++17或更高版本）
第三方库：Eigen3

数据集规模

Avila：10,430个数据点，每个点有10个维度，总计12个类。
DSDD：58,509个数据点，每个点有48个维度，总计11个类。
MNIST：60,000个数据点，每个点有784个维度，总计10个类。
KDD：4,898,431个数据点，每个点有34个维度，总计23个类。
KITSUNE：20,253,460个数据点，每个点有115个维度，总计8个类。
KITSUNE10：1,868,224个数据点，每个点有115个维度，总计8个类。

运行结果指标

$delta_k=frac{k-c}{c}*100%$ (k是预估类数, c是真实类数)
Runtime(s)

许可证

Apache 2.0 License

搜集汇总

数据集介绍

构建方式

LOG-Means数据集的构建基于一种高效的簇数目估计方法，该方法通过二分搜索策略和递归细化策略在大范围和小范围内进行簇数目估计。具体实现中，算法定义了键值数据结构K和M，分别存储已评估的k值及其对应的SSE（误差平方和）以及SSE Ratio。通过迭代计算，算法能够在大数据集和大搜索空间中高效地估计簇的数目。此外，算法还结合了k-means||初始化、k-means++初始化和Elbow算法等多种初始化方法，以确保在不同数据集上的鲁棒性和准确性。

特点

LOG-Means数据集的特点在于其高效性和鲁棒性，尤其适用于大规模数据集。数据集包含了多个真实世界的数据集，如Avila、DSDD、MNIST、KDD、KITSUNE和KITSUNE10，每个数据集具有不同的维度和类别数。这些数据集涵盖了从数千到数百万个数据点的规模，且每个数据点的维度从10到784不等。LOG-Means算法通过二分搜索和递归细化策略，能够在较短的时间内准确估计簇的数目，且对数据集的规模和维度具有较强的适应性。

使用方法

LOG-Means数据集的使用方法较为灵活，用户可以通过命令行参数指定不同的运行模式。默认情况下，程序会对Avila数据集在[0.5c, 2c]范围内进行簇数目估计。用户还可以选择对所有数据集进行簇数目估计，或指定特定数据集进行测试。此外，用户可以通过参数指定大范围搜索模式或使用Elbow算法进行簇数目估计。质心初始化模式也可根据需求选择，包括k-means||、random和k-means++等。通过这些参数设置，用户可以根据具体需求灵活调整算法的运行方式，以获得最佳的簇数目估计结果。

背景与挑战

背景概述

LOG-Means数据集项目源于2020年，由Manuel Fritz、Michael Behringer和Holger Schwarz等研究人员在PVLDB期刊上发表的论文。该项目旨在解决大规模数据集中簇数目估计的难题，提出了一种高效且鲁棒的LOG-Means算法。该算法通过二分搜索和递归细化策略，显著提升了簇数目估计的效率和准确性。LOG-Means算法的核心研究问题在于如何在大规模数据集和高维空间中快速且准确地确定簇的数目，这一问题的解决对聚类分析、数据挖掘和机器学习等领域具有重要影响。项目复现了该算法，并提供了对多个经典数据集（如Avila、DSDD、MNIST等）的支持，推动了相关领域的研究进展。

当前挑战

LOG-Means数据集项目面临的挑战主要体现在两个方面。其一，簇数目估计问题本身具有较高的计算复杂度，尤其是在大规模数据集和高维空间中，传统的K-Means算法难以高效处理。LOG-Means算法虽然通过二分搜索和递归细化策略提升了效率，但在极端情况下仍可能面临计算资源消耗过大的问题。其二，数据集的多样性和复杂性为算法的泛化能力提出了更高要求。例如，KDD和KITSUNE数据集的数据点数量和维度极高，如何在这些数据集上保持算法的准确性和鲁棒性是一个重要挑战。此外，算法的实现依赖于高效的C++编程和第三方库（如Eigen3），这对开发者的技术能力提出了较高要求。

常用场景

经典使用场景

LOG-Means算法在数据聚类领域展现了其独特的优势，特别是在处理大规模数据集时。该算法通过二分搜索和递归细化策略，有效地估计数据中的簇数目，适用于如Avila、DSDD、MNIST等数据集。这些数据集通常包含高维数据，LOG-Means能够在不牺牲精度的情况下，显著减少计算时间和资源消耗。

衍生相关工作

LOG-Means算法的提出激发了大量相关研究，特别是在优化聚类算法和提升大数据处理能力方面。例如，基于LOG-Means的改进算法被开发出来，以进一步提高簇数目估计的准确性和算法的鲁棒性。此外，该算法也被集成到多个开源机器学习库中，促进了其在更广泛领域的应用和研究。

数据集最近研究