five

MNIST-Nd|高维数据数据集|聚类分析数据集

收藏
arXiv2024-10-21 更新2024-10-23 收录
高维数据
聚类分析
下载链接:
http://arxiv.org/abs/2410.16124v1
下载链接
链接失效反馈
资源简介:
MNIST-Nd是由哥廷根大学计算机科学研究所和数据科学校园研究所创建的一组合成数据集,旨在评估高维数据中的聚类性能。该数据集通过在MNIST数据集上训练2到64个潜在维度的混合变分自编码器生成,包含六个不同维度的数据集。数据集的创建过程确保了样本的噪声和聚类的不完美分离,模拟了真实世界数据的特点。MNIST-Nd主要用于研究高维数据聚类的影响,特别是在生物学和深度学习领域,旨在解决高维数据聚类中的挑战。
提供机构:
哥廷根大学计算机科学研究所和数据科学校园研究所
创建时间:
2024-10-21
AI搜集汇总
数据集介绍
main_image_url
构建方式
MNIST-Nd数据集通过训练混合变分自编码器(m-VAE)生成,该自编码器在MNIST数据集上进行训练,并从2到64个潜在维度进行扩展。每个维度的数据集通过编码MNIST测试集生成,确保在不同维度下保持一致的结构和信号噪声比。这种方法使得MNIST-Nd能够模拟真实世界数据集的噪声和非完美分离的聚类特性,从而为高维聚类算法的性能评估提供了理想的基准。
特点
MNIST-Nd数据集的主要特点在于其高维度和真实噪声的模拟。通过混合变分自编码器生成的数据集,不仅在维度上可控,而且在不同维度下保持了相似的结构和噪声水平。这种设计使得MNIST-Nd能够有效评估聚类算法在高维空间中的表现,特别是在处理非均匀噪声和重叠密度模式时的鲁棒性。
使用方法
MNIST-Nd数据集适用于评估和比较不同聚类算法在高维数据上的性能。研究者可以使用该数据集来测试如k-means、高斯混合模型(GMM)、t分布混合模型(TMM)和Leiden聚类等算法。通过调整数据集的维度,可以系统地分析和比较这些算法在不同维度下的表现,从而为高维数据聚类提供有价值的见解和指导。
背景与挑战
背景概述
MNIST-Nd数据集由德国哥廷根大学计算机科学与数据科学研究所的Polina Turishcheva、Laura Hansel、Martin Ritzert、Marissa A. Weis和Alexander S. Ecker等研究人员于2024年创建。该数据集旨在解决高维数据聚类中的挑战,特别是评估不同维度对聚类算法性能的影响。通过训练混合变分自编码器(m-VAE)在MNIST数据集上生成2到64个潜在维度的嵌入,MNIST-Nd提供了一个可控的、具有现实噪声特性的高维数据集,有助于深入理解维度对聚类效果的影响。
当前挑战
MNIST-Nd数据集面临的挑战主要集中在高维数据聚类的复杂性上。首先,高维空间中样本间的距离变得相似,导致传统的距离度量方法失效。其次,现有基准数据集多为二维或三维,无法真实反映高维数据的聚类问题。此外,构建过程中需要确保不同维度数据集的信号噪声比一致,以保证实验结果的可比性。最后,评估聚类算法的性能和稳定性时,需考虑数据扰动和初始化条件的影响,以确保结果的鲁棒性。
常用场景
经典使用场景
MNIST-Nd数据集的经典使用场景在于评估和比较不同聚类算法在高维数据中的表现。通过提供从2到64维度的合成数据集,MNIST-Nd允许研究者系统地探索维度对聚类效果的影响。例如,研究者可以利用该数据集测试k-means、GMM、TMM和Leiden等聚类算法在不同维度下的鲁棒性和性能,从而为高维数据聚类提供基准参考。
解决学术问题
MNIST-Nd数据集解决了高维数据聚类中的一个关键学术问题,即维度对聚类算法性能的影响。传统聚类算法在处理高维数据时往往表现不佳,而现有基准数据集多为二维或三维,无法全面反映高维数据的复杂性。MNIST-Nd通过提供多维度的合成数据集,帮助研究者理解高维空间中聚类算法的局限性和改进方向,推动了高维数据聚类领域的研究进展。
衍生相关工作
MNIST-Nd数据集的提出激发了大量相关研究工作。例如,基于MNIST-Nd的聚类算法性能评估结果,研究者开发了新的高维数据聚类方法,如改进的Leiden聚类算法。此外,MNIST-Nd还被用于验证其他高维数据处理技术,如降维方法和特征选择算法的效果。这些衍生工作进一步推动了高维数据分析领域的发展。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

Yahoo Finance

Dataset About finance related to stock market

kaggle 收录

AISHELL/AISHELL-1

Aishell是一个开源的中文普通话语音语料库,由北京壳壳科技有限公司发布。数据集包含了来自中国不同口音地区的400人的录音,录音在安静的室内环境中使用高保真麦克风进行,并下采样至16kHz。通过专业的语音标注和严格的质量检查,手动转录的准确率超过95%。该数据集免费供学术使用,旨在为语音识别领域的新研究人员提供适量的数据。

hugging_face 收录

熟肉制品在全国需求价格弹性分析数据

为更好了解各市对熟肉制品的市场需求情况,本行业所有企业对相关熟肉制品需求弹性数据进行采集计算。如果熟肉制品需求量变动的比率大于价格变动的比率,那么熟肉制品需求富有弹性,说明顾客对于熟肉制品价格变化的敏感程度大,弹性越大,需求对价格变化越敏感,本行业所有企业可以在该市适当的降低熟肉制品价格来获得较多的收益。如果熟肉制品需求缺乏弹性,本行业所有企业可以在该市适当的提高熟肉制品价格来获得较多的收益。该项数据对本行业所有企业在全国的市场营销决策有重要意义。1.数据采集:采集相关熟肉制品在某一时间段全国的的需求数据和价格数据,按照市级进行整理归纳,得到该熟肉制品的需求量变动数值和价格变化数值。 2.算法规则:对采集得到的数据按照如下公式进行计算:需求弹性系数Ed=-(△Q/Q)÷(△P/P),得到需求弹性系数。式中:Q表示产品的需求量,单位为份;P表示产品的价格,单位为元;△Q表示需求量同比变动值,单位为份;△P表示价格同比变动值,单位为元。取需求弹性系数的绝对值|Ed|作为分析数据时的参考系数。 3.数据分析:根据|Ed|的数值可分析该熟肉制品的需求价格弹性。(1)|Ed|=1(单位需求价格弹性),说明需求量变动幅度与价格变动幅度相同;(2)1<|Ed|(需求富有弹性),说明需求量变动幅度大于价格变动幅度;(3)|Ed|<1(需求缺乏弹性),说明需求量变动幅度小于价格变动幅度。

浙江省数据知识产权登记平台 收录

农业农作物生长全周期数据集

农业农作物生长全周期数据集通过整合农作物、农场面积、刺激类型、肥料用量、杀虫剂使用量、产量、土壤类型、季节和用水量等多维度数据,实现农业生产的精准化管理和可持续发展。

浙江大数据交易服务平台 收录

THUCNews

THUCNews是根据新浪新闻RSS订阅频道2005~2011年间的历史数据筛选过滤生成,包含74万篇新闻文档(2.19 GB),均为UTF-8纯文本格式。本次比赛数据集在原始新浪新闻分类体系的基础上,重新整合划分出14个候选分类类别:财经、彩票、房产、股票、家居、教育、科技、社会、时尚、时政、体育、星座、游戏、娱乐。提供训练数据共832471条。

github 收录