Density Estimation Benchmark Datasets
收藏github2019-12-18 更新2024-05-31 收录
下载链接:
https://github.com/Bekyilma/Density-Estimation-Datasets
下载链接
链接失效反馈官方服务:
资源简介:
用于机器学习中密度估计的一组基准数据集。使用这些数据集时应引用其原始论文。
A set of benchmark datasets for density estimation in machine learning. The original papers should be cited when using these datasets.
创建时间:
2019-12-18
原始信息汇总
数据集概述
数据集列表
| 数据集 | 类型 | 变量数 | 训练集大小 | 验证集大小 | 测试集大小 | 密度 | 缩写 |
|---|---|---|---|---|---|---|---|
| NLTCS | binary | 16 | 16181 | 2157 | 3236 | 0.332 | NLTCS |
| MSNBC | binary | 17 | 291326 | 38843 | 58265 | 0.166 | msnbc |
| KDDCup2k | binary | 65 | 180092 | 19907 | 34955 | 0.008 | kdd |
| Plants | binary | 69 | 17412 | 2321 | 3482 | 0.180 | plants |
| Audio | binary | 100 | 15000 | 2000 | 3000 | 0.199 | baudio |
| Jester | binary | 100 | 9000 | 1000 | 4116 | 0.608 | jester |
| Netflix | binary | 100 | 15000 | 2000 | 3000 | 0.541 | bnetflix |
| Accidents | binary | 111 | 12758 | 1700 | 2551 | 0.291 | accidents |
| Mushrooms | binary | 112 | 2000 | 500 | 5624 | 0.187 | mushrooms |
| Adult | binary | 123 | 5000 | 1414 | 26147 | 0.112 | adult |
| Connect 4 | binary | 126 | 16000 | 4000 | 47557 | 0.333 | connect4 |
| OCR Letters | binary | 128 | 32152 | 10000 | 10000 | 0.220 | ocr_letters |
| RCV-1 | binary | 150 | 40000 | 10000 | 150000 | 0.138 | rcv1 |
| Retail | binary | 135 | 22041 | 2938 | 4408 | 0.024 | tretail |
| Pumsb-star | binary | 163 | 12262 | 1635 | 2452 | 0.270 | pumsb_star |
| DNA | binary | 180 | 1600 | 400 | 1186 | 0.253 | dna |
| Kosarek | binary | 190 | 33375 | 4450 | 6675 | 0.020 | kosarek |
| MSWeb | binary | 294 | 29441 | 3270 | 5000 | 0.010 | MSWeb |
| NIPS | binary | 500 | 400 | 100 | 1240 | 0.367 | nips |
| Book | binary | 500 | 8700 | 1159 | 1739 | 0.016 | book |
| EachMovie | binary | 500 | 4525 | 1002 | 591 | 0.059 | tmovie |
| WebKB | binary | 839 | 2803 | 558 | 838 | 0.064 | cwebkb |
| Reuters-52 | binary | 889 | 6532 | 1028 | 1540 | 0.036 | cr52 |
| 20 NewsGroup | binary | 910 | 11293 | 3764 | 3764 | 0.049 | c20ng |
| Movie reviews | binary | 1001 | 1600 | 150 | 250 | 0.140 | moviereview |
| BBC | binary | 1058 | 1670 | 225 | 330 | 0.078 | bbc |
| Voting | binary | 1359 | 1214 | 200 | 350 | 0.333 | voting |
| Ad | binary | 1556 | 2461 | 327 | 491 | 0.008 | ad |
| Binarized MNIST | binary | ? | ? | ? | ? | ? | binarized_mnist |
引用要求
使用任何数据集时,应引用其原始论文。
搜集汇总
数据集介绍

构建方式
Density Estimation Benchmark Datasets数据集的构建旨在为密度估计任务提供多样化的实验平台。该数据集整合了多个领域的数据,包括医学、文本、图像等,通过精心挑选并按照各自领域特点进行预处理,形成了适用于机器学习研究的格式。各数据集包含训练集、验证集和测试集,以支持模型的训练、调优和评估。
特点
该数据集的特点在于其多样性、规模性和实用性。它包含了多种不同类型的数据,既有二分类问题也有多变量问题,满足了不同密度估计算法的需求。数据集规模从几千到几十万不等,适合不同规模的模型训练。此外,所有数据集均提供了详细的文献引用,方便用户在使用时遵循学术规范。
使用方法
使用该数据集时,用户应根据具体的研究需求选择合适的数据集。数据集的使用包括但不限于模型的训练、验证和测试。用户需要遵循README文件中的指导,正确引用相关文献。此外,针对不同的数据集,用户可能需要进行适当的预处理,如数据标准化、缺失值处理等,以确保模型的训练效果。
背景与挑战
背景概述
密度估计是机器学习领域中的一个重要研究课题,其核心任务是根据给定的数据样本集估计数据分布的概率密度函数。Density Estimation Benchmark Datasets 数据集收集了多个用于密度估计的机器学习数据集,旨在为研究人员提供一个统一的平台,以评估和比较不同密度估计方法的性能。该数据集的创建时间为2010年,由Daniel Lowd和Jesse Davis等研究人员提出,并在多个国际学术会议和期刊上得到应用和引用,对密度估计领域的研究产生了显著影响。
当前挑战
该数据集在构建和应用过程中面临的挑战主要包括:1)数据多样性的挑战,涵盖不同领域和特征维度的数据集,要求密度估计方法具备广泛的适用性和鲁棒性;2)数据标注和真实分布获取的挑战,由于部分数据集的真实分布未知或难以获取,导致评估方法性能时存在一定的不确定性;3)大规模数据处理和分析的挑战,部分数据集的样本量和特征维度较大,对计算资源和算法效率提出了较高要求。
常用场景
经典使用场景
密度估计是机器学习中的一项基础任务,旨在从数据中估计概率密度函数。Density Estimation Benchmark Datasets作为一系列用于密度估计的标准数据集,其经典使用场景在于为研究者提供了一个统一的平台,用以比较和评估不同密度估计算法的性能,包括参数和非参数方法。
衍生相关工作
基于这些数据集,研究者们衍生出了众多相关工作,包括对现有密度估计方法的改进、新算法的提出,以及对不同算法在大规模复杂数据集上的性能分析,进一步推动了机器学习领域密度估计技术的发展。
数据集最近研究
最新研究方向
在概率密度估计领域,Density Estimation Benchmark Datasets数据集为研究人员提供了丰富的实验材料。近期研究主要聚焦于提升密度估计模型的准确性和效率,尤其是针对复杂数据结构和大规模数据集。这些研究不仅探索了决策树与马尔可夫网络结构的结合,以学习更为精确的概率分布,还涉及到了随机特征生成方法,以及针对复杂概率查询的可处理学习技术。此外,神经网络自回归分布估计器的应用研究也取得了显著进展,为处理高维数据提供了新的视角。这些研究对于推动概率密度估计技术的发展和应用具有重要意义。
以上内容由遇见数据集搜集并总结生成



