Density Estimation Benchmark Datasets

github2019-12-18 更新2024-05-31 收录

下载链接：

https://github.com/Bekyilma/Density-Estimation-Datasets

下载链接

链接失效反馈

官方服务：

资源简介：

用于机器学习中密度估计的一组基准数据集。使用这些数据集时应引用其原始论文。

A set of benchmark datasets for density estimation in machine learning. The original papers should be cited when using these datasets.

创建时间：

2019-12-18

原始信息汇总

数据集概述

数据集列表

数据集	类型	变量数	训练集大小	验证集大小	测试集大小	密度	缩写
NLTCS	binary	16	16181	2157	3236	0.332	`NLTCS`
MSNBC	binary	17	291326	38843	58265	0.166	`msnbc`
KDDCup2k	binary	65	180092	19907	34955	0.008	`kdd`
Plants	binary	69	17412	2321	3482	0.180	`plants`
Audio	binary	100	15000	2000	3000	0.199	`baudio`
Jester	binary	100	9000	1000	4116	0.608	`jester`
Netflix	binary	100	15000	2000	3000	0.541	`bnetflix`
Accidents	binary	111	12758	1700	2551	0.291	`accidents`
Mushrooms	binary	112	2000	500	5624	0.187	`mushrooms`
Adult	binary	123	5000	1414	26147	0.112	`adult`
Connect 4	binary	126	16000	4000	47557	0.333	`connect4`
OCR Letters	binary	128	32152	10000	10000	0.220	`ocr_letters`
RCV-1	binary	150	40000	10000	150000	0.138	`rcv1`
Retail	binary	135	22041	2938	4408	0.024	`tretail`
Pumsb-star	binary	163	12262	1635	2452	0.270	`pumsb_star`
DNA	binary	180	1600	400	1186	0.253	`dna`
Kosarek	binary	190	33375	4450	6675	0.020	`kosarek`
MSWeb	binary	294	29441	3270	5000	0.010	`MSWeb`
NIPS	binary	500	400	100	1240	0.367	`nips`
Book	binary	500	8700	1159	1739	0.016	`book`
EachMovie	binary	500	4525	1002	591	0.059	`tmovie`
WebKB	binary	839	2803	558	838	0.064	`cwebkb`
Reuters-52	binary	889	6532	1028	1540	0.036	`cr52`
20 NewsGroup	binary	910	11293	3764	3764	0.049	`c20ng`
Movie reviews	binary	1001	1600	150	250	0.140	`moviereview`
BBC	binary	1058	1670	225	330	0.078	`bbc`
Voting	binary	1359	1214	200	350	0.333	`voting`
Ad	binary	1556	2461	327	491	0.008	`ad`
Binarized MNIST	binary	?	?	?	?	?	`binarized_mnist`

引用要求

使用任何数据集时，应引用其原始论文。

搜集汇总

数据集介绍

构建方式

Density Estimation Benchmark Datasets数据集的构建旨在为密度估计任务提供多样化的实验平台。该数据集整合了多个领域的数据，包括医学、文本、图像等，通过精心挑选并按照各自领域特点进行预处理，形成了适用于机器学习研究的格式。各数据集包含训练集、验证集和测试集，以支持模型的训练、调优和评估。

特点

该数据集的特点在于其多样性、规模性和实用性。它包含了多种不同类型的数据，既有二分类问题也有多变量问题，满足了不同密度估计算法的需求。数据集规模从几千到几十万不等，适合不同规模的模型训练。此外，所有数据集均提供了详细的文献引用，方便用户在使用时遵循学术规范。

使用方法

使用该数据集时，用户应根据具体的研究需求选择合适的数据集。数据集的使用包括但不限于模型的训练、验证和测试。用户需要遵循README文件中的指导，正确引用相关文献。此外，针对不同的数据集，用户可能需要进行适当的预处理，如数据标准化、缺失值处理等，以确保模型的训练效果。

背景与挑战

背景概述

密度估计是机器学习领域中的一个重要研究课题，其核心任务是根据给定的数据样本集估计数据分布的概率密度函数。Density Estimation Benchmark Datasets 数据集收集了多个用于密度估计的机器学习数据集，旨在为研究人员提供一个统一的平台，以评估和比较不同密度估计方法的性能。该数据集的创建时间为2010年，由Daniel Lowd和Jesse Davis等研究人员提出，并在多个国际学术会议和期刊上得到应用和引用，对密度估计领域的研究产生了显著影响。

当前挑战

该数据集在构建和应用过程中面临的挑战主要包括：1）数据多样性的挑战，涵盖不同领域和特征维度的数据集，要求密度估计方法具备广泛的适用性和鲁棒性；2）数据标注和真实分布获取的挑战，由于部分数据集的真实分布未知或难以获取，导致评估方法性能时存在一定的不确定性；3）大规模数据处理和分析的挑战，部分数据集的样本量和特征维度较大，对计算资源和算法效率提出了较高要求。

常用场景

经典使用场景

密度估计是机器学习中的一项基础任务，旨在从数据中估计概率密度函数。Density Estimation Benchmark Datasets作为一系列用于密度估计的标准数据集，其经典使用场景在于为研究者提供了一个统一的平台，用以比较和评估不同密度估计算法的性能，包括参数和非参数方法。

衍生相关工作

基于这些数据集，研究者们衍生出了众多相关工作，包括对现有密度估计方法的改进、新算法的提出，以及对不同算法在大规模复杂数据集上的性能分析，进一步推动了机器学习领域密度估计技术的发展。

数据集最近研究