Density Estimation Benchmark Datasets

github2024-03-29 更新2024-05-31 收录

下载链接：

https://github.com/UCLA-StarAI/Density-Estimation-Datasets

下载链接

链接失效反馈

官方服务：

资源简介：

用于机器学习中密度估计的一系列基准数据集。如果使用这些数据集，应引用其原始论文。

A series of benchmark datasets for density estimation in machine learning. If these datasets are used, the original paper should be cited.

创建时间：

2016-11-06

原始信息汇总

数据集概述

数据集列表

数据集	类型	变量数	训练集大小	验证集大小	测试集大小	密度	缩写
NLTCS	binary	16	16181	2157	3236	0.332	`NLTCS`
MSNBC	binary	17	291326	38843	58265	0.166	`msnbc`
KDDCup2k	binary	65	180092	19907	34955	0.008	`kdd`
Plants	binary	69	17412	2321	3482	0.180	`plants`
Audio	binary	100	15000	2000	3000	0.199	`baudio`
Jester	binary	100	9000	1000	4116	0.608	`jester`
Netflix	binary	100	15000	2000	3000	0.541	`bnetflix`
Accidents	binary	111	12758	1700	2551	0.291	`accidents`
Mushrooms	binary	112	2000	500	5624	0.187	`mushrooms`
Adult	binary	123	5000	1414	26147	0.112	`adult`
Connect 4	binary	126	16000	4000	47557	0.333	`connect4`
OCR Letters	binary	128	32152	10000	10000	0.220	`ocr_letters`
RCV-1	binary	150	40000	10000	150000	0.138	`rcv1`
Retail	binary	135	22041	2938	4408	0.024	`tretail`
Pumsb-star	binary	163	12262	1635	2452	0.270	`pumsb_star`
DNA	binary	180	1600	400	1186	0.253	`dna`
Kosarek	binary	190	33375	4450	6675	0.020	`kosarek`
MSWeb	binary	294	29441	3270	5000	0.010	`MSWeb`
NIPS	binary	500	400	100	1240	0.367	`nips`
Book	binary	500	8700	1159	1739	0.016	`book`
EachMovie	binary	500	4525	1002	591	0.059	`tmovie`
WebKB	binary	839	2803	558	838	0.064	`cwebkb`
Reuters-52	binary	889	6532	1028	1540	0.036	`cr52`
20 NewsGroup	binary	910	11293	3764	3764	0.049	`c20ng`
Movie reviews	binary	1001	1600	150	250	0.140	`moviereview`
BBC	binary	1058	1670	225	330	0.078	`bbc`
Voting	binary	1359	1214	200	350	0.333	`voting`
Ad	binary	1556	2461	327	491	0.008	`ad`
Binarized MNIST	binary	?	?	?	?	?	`binarized_mnist`

引用信息

使用任何数据集时，应引用其原始论文。

搜集汇总

数据集介绍

构建方式

Density Estimation Benchmark Datasets的构建基于多篇经典机器学习文献，涵盖了从二元变量到高维数据的广泛领域。这些数据集通过严格的实验设计和数据采集流程，确保了其在不同密度估计任务中的适用性。每个数据集均经过预处理，划分为训练集、验证集和测试集，以便于模型训练与评估。数据集的构建过程中，研究者们注重数据的多样性和代表性，使其能够全面反映真实世界中的复杂概率分布。

使用方法

使用Density Estimation Benchmark Datasets时，研究者可根据具体任务选择合适的数据集进行模型训练与评估。每个数据集已划分为训练集、验证集和测试集，便于直接用于机器学习流程。在使用过程中，建议引用原始文献以确保学术规范性。研究者可通过调整模型参数、优化算法等方式，利用这些数据集进行密度估计性能的对比与验证。此外，数据集的高维特性也为探索复杂概率分布提供了丰富的实验素材。

背景与挑战

背景概述

Density Estimation Benchmark Datasets 是由多个研究团队在2010年至2015年间共同构建的，旨在为机器学习中的密度估计问题提供标准化的评估基准。该数据集的核心研究问题在于如何通过概率模型准确估计数据的分布，从而为复杂的数据分析任务提供支持。主要研究人员包括Daniel Lowd、Jesse Davis、Jan Van Haaren等，他们的研究成果发表在ICDM、AAAI、NIPS等顶级会议上。该数据集涵盖了从二元数据到高维数据的多种类型，广泛应用于概率图模型、贝叶斯网络等领域，极大地推动了密度估计技术的发展。

当前挑战

Density Estimation Benchmark Datasets 在解决密度估计问题时面临多重挑战。首先，密度估计本身是一个高维且复杂的任务，尤其是在数据维度较高时，模型的准确性和计算效率难以兼顾。其次，数据集的构建过程中，研究人员需要确保数据的多样性和代表性，以覆盖不同应用场景的需求，这对数据采集和预处理提出了较高要求。此外，如何设计有效的评估指标来衡量不同模型的性能，也是一个亟待解决的问题。这些挑战不仅影响了模型的训练和优化，也对密度估计技术的实际应用提出了更高的要求。

常用场景

经典使用场景

在机器学习领域，密度估计是一个核心任务，旨在从数据中推断出概率密度函数。Density Estimation Benchmark Datasets 提供了一系列标准化的数据集，广泛应用于评估和比较不同密度估计算法的性能。这些数据集涵盖了从二元变量到高维数据的多种类型，为研究者提供了一个统一的基准平台，确保实验结果的可比性和可重复性。

解决学术问题

该数据集解决了密度估计领域中的多个关键学术问题，特别是在高维数据和非线性分布情况下的密度估计挑战。通过提供多样化的数据集，研究者能够验证和改进各种密度估计算法，如核密度估计、高斯混合模型和神经网络方法。这些数据集的使用显著推动了密度估计理论的发展，并为复杂概率分布的建模提供了有力支持。

实际应用

在实际应用中，Density Estimation Benchmark Datasets 被广泛用于多个领域，如自然语言处理、图像识别和推荐系统。例如，在推荐系统中，通过密度估计可以更好地理解用户行为模式，从而提升个性化推荐的准确性。在图像识别中，密度估计有助于从高维图像数据中提取有用的特征，提高分类和检测的精度。

数据集最近研究