Density Estimation Benchmark Datasets
收藏github2024-03-29 更新2024-05-31 收录
下载链接:
https://github.com/UCLA-StarAI/Density-Estimation-Datasets
下载链接
链接失效反馈官方服务:
资源简介:
用于机器学习中密度估计的一系列基准数据集。如果使用这些数据集,应引用其原始论文。
A series of benchmark datasets for density estimation in machine learning. If these datasets are used, the original paper should be cited.
创建时间:
2016-11-06
原始信息汇总
数据集概述
数据集列表
| 数据集 | 类型 | 变量数 | 训练集大小 | 验证集大小 | 测试集大小 | 密度 | 缩写 |
|---|---|---|---|---|---|---|---|
| NLTCS | binary | 16 | 16181 | 2157 | 3236 | 0.332 | NLTCS |
| MSNBC | binary | 17 | 291326 | 38843 | 58265 | 0.166 | msnbc |
| KDDCup2k | binary | 65 | 180092 | 19907 | 34955 | 0.008 | kdd |
| Plants | binary | 69 | 17412 | 2321 | 3482 | 0.180 | plants |
| Audio | binary | 100 | 15000 | 2000 | 3000 | 0.199 | baudio |
| Jester | binary | 100 | 9000 | 1000 | 4116 | 0.608 | jester |
| Netflix | binary | 100 | 15000 | 2000 | 3000 | 0.541 | bnetflix |
| Accidents | binary | 111 | 12758 | 1700 | 2551 | 0.291 | accidents |
| Mushrooms | binary | 112 | 2000 | 500 | 5624 | 0.187 | mushrooms |
| Adult | binary | 123 | 5000 | 1414 | 26147 | 0.112 | adult |
| Connect 4 | binary | 126 | 16000 | 4000 | 47557 | 0.333 | connect4 |
| OCR Letters | binary | 128 | 32152 | 10000 | 10000 | 0.220 | ocr_letters |
| RCV-1 | binary | 150 | 40000 | 10000 | 150000 | 0.138 | rcv1 |
| Retail | binary | 135 | 22041 | 2938 | 4408 | 0.024 | tretail |
| Pumsb-star | binary | 163 | 12262 | 1635 | 2452 | 0.270 | pumsb_star |
| DNA | binary | 180 | 1600 | 400 | 1186 | 0.253 | dna |
| Kosarek | binary | 190 | 33375 | 4450 | 6675 | 0.020 | kosarek |
| MSWeb | binary | 294 | 29441 | 3270 | 5000 | 0.010 | MSWeb |
| NIPS | binary | 500 | 400 | 100 | 1240 | 0.367 | nips |
| Book | binary | 500 | 8700 | 1159 | 1739 | 0.016 | book |
| EachMovie | binary | 500 | 4525 | 1002 | 591 | 0.059 | tmovie |
| WebKB | binary | 839 | 2803 | 558 | 838 | 0.064 | cwebkb |
| Reuters-52 | binary | 889 | 6532 | 1028 | 1540 | 0.036 | cr52 |
| 20 NewsGroup | binary | 910 | 11293 | 3764 | 3764 | 0.049 | c20ng |
| Movie reviews | binary | 1001 | 1600 | 150 | 250 | 0.140 | moviereview |
| BBC | binary | 1058 | 1670 | 225 | 330 | 0.078 | bbc |
| Voting | binary | 1359 | 1214 | 200 | 350 | 0.333 | voting |
| Ad | binary | 1556 | 2461 | 327 | 491 | 0.008 | ad |
| Binarized MNIST | binary | ? | ? | ? | ? | ? | binarized_mnist |
引用信息
- 使用任何数据集时,应引用其原始论文。
搜集汇总
数据集介绍

构建方式
Density Estimation Benchmark Datasets的构建基于多篇经典机器学习文献,涵盖了从二元变量到高维数据的广泛领域。这些数据集通过严格的实验设计和数据采集流程,确保了其在不同密度估计任务中的适用性。每个数据集均经过预处理,划分为训练集、验证集和测试集,以便于模型训练与评估。数据集的构建过程中,研究者们注重数据的多样性和代表性,使其能够全面反映真实世界中的复杂概率分布。
使用方法
使用Density Estimation Benchmark Datasets时,研究者可根据具体任务选择合适的数据集进行模型训练与评估。每个数据集已划分为训练集、验证集和测试集,便于直接用于机器学习流程。在使用过程中,建议引用原始文献以确保学术规范性。研究者可通过调整模型参数、优化算法等方式,利用这些数据集进行密度估计性能的对比与验证。此外,数据集的高维特性也为探索复杂概率分布提供了丰富的实验素材。
背景与挑战
背景概述
Density Estimation Benchmark Datasets 是由多个研究团队在2010年至2015年间共同构建的,旨在为机器学习中的密度估计问题提供标准化的评估基准。该数据集的核心研究问题在于如何通过概率模型准确估计数据的分布,从而为复杂的数据分析任务提供支持。主要研究人员包括Daniel Lowd、Jesse Davis、Jan Van Haaren等,他们的研究成果发表在ICDM、AAAI、NIPS等顶级会议上。该数据集涵盖了从二元数据到高维数据的多种类型,广泛应用于概率图模型、贝叶斯网络等领域,极大地推动了密度估计技术的发展。
当前挑战
Density Estimation Benchmark Datasets 在解决密度估计问题时面临多重挑战。首先,密度估计本身是一个高维且复杂的任务,尤其是在数据维度较高时,模型的准确性和计算效率难以兼顾。其次,数据集的构建过程中,研究人员需要确保数据的多样性和代表性,以覆盖不同应用场景的需求,这对数据采集和预处理提出了较高要求。此外,如何设计有效的评估指标来衡量不同模型的性能,也是一个亟待解决的问题。这些挑战不仅影响了模型的训练和优化,也对密度估计技术的实际应用提出了更高的要求。
常用场景
经典使用场景
在机器学习领域,密度估计是一个核心任务,旨在从数据中推断出概率密度函数。Density Estimation Benchmark Datasets 提供了一系列标准化的数据集,广泛应用于评估和比较不同密度估计算法的性能。这些数据集涵盖了从二元变量到高维数据的多种类型,为研究者提供了一个统一的基准平台,确保实验结果的可比性和可重复性。
解决学术问题
该数据集解决了密度估计领域中的多个关键学术问题,特别是在高维数据和非线性分布情况下的密度估计挑战。通过提供多样化的数据集,研究者能够验证和改进各种密度估计算法,如核密度估计、高斯混合模型和神经网络方法。这些数据集的使用显著推动了密度估计理论的发展,并为复杂概率分布的建模提供了有力支持。
实际应用
在实际应用中,Density Estimation Benchmark Datasets 被广泛用于多个领域,如自然语言处理、图像识别和推荐系统。例如,在推荐系统中,通过密度估计可以更好地理解用户行为模式,从而提升个性化推荐的准确性。在图像识别中,密度估计有助于从高维图像数据中提取有用的特征,提高分类和检测的精度。
数据集最近研究
最新研究方向
在机器学习领域,密度估计作为概率建模的核心任务之一,近年来受到广泛关注。Density Estimation Benchmark Datasets为研究者提供了多样化的数据集,涵盖了从文本、图像到用户行为等多个领域。当前的研究热点主要集中在如何利用深度生成模型,如变分自编码器(VAE)和生成对抗网络(GAN),来提升高维数据的密度估计性能。此外,基于自回归模型和归一化流的方法也在不断优化,以应对复杂数据分布的建模挑战。这些进展不仅推动了密度估计技术的理论发展,还在实际应用中,如异常检测、数据生成和推荐系统中展现出重要价值。
以上内容由遇见数据集搜集并总结生成



