MNIST-Nd
收藏arXiv2024-10-21 更新2024-10-23 收录
下载链接:
http://arxiv.org/abs/2410.16124v1
下载链接
链接失效反馈官方服务:
资源简介:
MNIST-Nd是由哥廷根大学计算机科学研究所和数据科学校园研究所创建的一组合成数据集,旨在评估高维数据中的聚类性能。该数据集通过在MNIST数据集上训练2到64个潜在维度的混合变分自编码器生成,包含六个不同维度的数据集。数据集的创建过程确保了样本的噪声和聚类的不完美分离,模拟了真实世界数据的特点。MNIST-Nd主要用于研究高维数据聚类的影响,特别是在生物学和深度学习领域,旨在解决高维数据聚类中的挑战。
MNIST-Nd is a collection of synthetic datasets developed by the Institute of Computer Science and the Data Science Campus Institute of the University of Göttingen, designed to evaluate clustering performance on high-dimensional data. This dataset suite is generated by training mixed variational autoencoders with latent dimensions ranging from 2 to 64 on the MNIST dataset, and includes six datasets with distinct dimensionalities. The dataset creation pipeline ensures that samples contain noise and clusters are imperfectly separated, simulating the characteristics of real-world data. MNIST-Nd is primarily used to investigate the impacts of high-dimensional data clustering, especially in the fields of biology and deep learning, aiming to address the challenges in high-dimensional data clustering.
提供机构:
哥廷根大学计算机科学研究所和数据科学校园研究所
创建时间:
2024-10-21
搜集汇总
数据集介绍

构建方式
MNIST-Nd数据集通过训练混合变分自编码器(m-VAE)生成,该自编码器在MNIST数据集上进行训练,并从2到64个潜在维度进行扩展。每个维度的数据集通过编码MNIST测试集生成,确保在不同维度下保持一致的结构和信号噪声比。这种方法使得MNIST-Nd能够模拟真实世界数据集的噪声和非完美分离的聚类特性,从而为高维聚类算法的性能评估提供了理想的基准。
特点
MNIST-Nd数据集的主要特点在于其高维度和真实噪声的模拟。通过混合变分自编码器生成的数据集,不仅在维度上可控,而且在不同维度下保持了相似的结构和噪声水平。这种设计使得MNIST-Nd能够有效评估聚类算法在高维空间中的表现,特别是在处理非均匀噪声和重叠密度模式时的鲁棒性。
使用方法
MNIST-Nd数据集适用于评估和比较不同聚类算法在高维数据上的性能。研究者可以使用该数据集来测试如k-means、高斯混合模型(GMM)、t分布混合模型(TMM)和Leiden聚类等算法。通过调整数据集的维度,可以系统地分析和比较这些算法在不同维度下的表现,从而为高维数据聚类提供有价值的见解和指导。
背景与挑战
背景概述
MNIST-Nd数据集由德国哥廷根大学计算机科学与数据科学研究所的Polina Turishcheva、Laura Hansel、Martin Ritzert、Marissa A. Weis和Alexander S. Ecker等研究人员于2024年创建。该数据集旨在解决高维数据聚类中的挑战,特别是评估不同维度对聚类算法性能的影响。通过训练混合变分自编码器(m-VAE)在MNIST数据集上生成2到64个潜在维度的嵌入,MNIST-Nd提供了一个可控的、具有现实噪声特性的高维数据集,有助于深入理解维度对聚类效果的影响。
当前挑战
MNIST-Nd数据集面临的挑战主要集中在高维数据聚类的复杂性上。首先,高维空间中样本间的距离变得相似,导致传统的距离度量方法失效。其次,现有基准数据集多为二维或三维,无法真实反映高维数据的聚类问题。此外,构建过程中需要确保不同维度数据集的信号噪声比一致,以保证实验结果的可比性。最后,评估聚类算法的性能和稳定性时,需考虑数据扰动和初始化条件的影响,以确保结果的鲁棒性。
常用场景
经典使用场景
MNIST-Nd数据集的经典使用场景在于评估和比较不同聚类算法在高维数据中的表现。通过提供从2到64维度的合成数据集,MNIST-Nd允许研究者系统地探索维度对聚类效果的影响。例如,研究者可以利用该数据集测试k-means、GMM、TMM和Leiden等聚类算法在不同维度下的鲁棒性和性能,从而为高维数据聚类提供基准参考。
解决学术问题
MNIST-Nd数据集解决了高维数据聚类中的一个关键学术问题,即维度对聚类算法性能的影响。传统聚类算法在处理高维数据时往往表现不佳,而现有基准数据集多为二维或三维,无法全面反映高维数据的复杂性。MNIST-Nd通过提供多维度的合成数据集,帮助研究者理解高维空间中聚类算法的局限性和改进方向,推动了高维数据聚类领域的研究进展。
衍生相关工作
MNIST-Nd数据集的提出激发了大量相关研究工作。例如,基于MNIST-Nd的聚类算法性能评估结果,研究者开发了新的高维数据聚类方法,如改进的Leiden聚类算法。此外,MNIST-Nd还被用于验证其他高维数据处理技术,如降维方法和特征选择算法的效果。这些衍生工作进一步推动了高维数据分析领域的发展。
以上内容由遇见数据集搜集并总结生成



