five

Density Estimation Benchmark Datasets

收藏
github2019-12-18 更新2024-05-31 收录
下载链接:
https://github.com/Bekyilma/Density-Estimation-Datasets
下载链接
链接失效反馈
官方服务:
资源简介:
用于机器学习中密度估计的一组基准数据集。使用这些数据集时应引用其原始论文。

A set of benchmark datasets for density estimation in machine learning. The original papers should be cited when using these datasets.
创建时间:
2019-12-18
原始信息汇总

数据集概述

数据集列表

数据集 类型 变量数 训练集大小 验证集大小 测试集大小 密度 缩写
NLTCS binary 16 16181 2157 3236 0.332 NLTCS
MSNBC binary 17 291326 38843 58265 0.166 msnbc
KDDCup2k binary 65 180092 19907 34955 0.008 kdd
Plants binary 69 17412 2321 3482 0.180 plants
Audio binary 100 15000 2000 3000 0.199 baudio
Jester binary 100 9000 1000 4116 0.608 jester
Netflix binary 100 15000 2000 3000 0.541 bnetflix
Accidents binary 111 12758 1700 2551 0.291 accidents
Mushrooms binary 112 2000 500 5624 0.187 mushrooms
Adult binary 123 5000 1414 26147 0.112 adult
Connect 4 binary 126 16000 4000 47557 0.333 connect4
OCR Letters binary 128 32152 10000 10000 0.220 ocr_letters
RCV-1 binary 150 40000 10000 150000 0.138 rcv1
Retail binary 135 22041 2938 4408 0.024 tretail
Pumsb-star binary 163 12262 1635 2452 0.270 pumsb_star
DNA binary 180 1600 400 1186 0.253 dna
Kosarek binary 190 33375 4450 6675 0.020 kosarek
MSWeb binary 294 29441 3270 5000 0.010 MSWeb
NIPS binary 500 400 100 1240 0.367 nips
Book binary 500 8700 1159 1739 0.016 book
EachMovie binary 500 4525 1002 591 0.059 tmovie
WebKB binary 839 2803 558 838 0.064 cwebkb
Reuters-52 binary 889 6532 1028 1540 0.036 cr52
20 NewsGroup binary 910 11293 3764 3764 0.049 c20ng
Movie reviews binary 1001 1600 150 250 0.140 moviereview
BBC binary 1058 1670 225 330 0.078 bbc
Voting binary 1359 1214 200 350 0.333 voting
Ad binary 1556 2461 327 491 0.008 ad
Binarized MNIST binary ? ? ? ? ? binarized_mnist

引用要求

使用任何数据集时,应引用其原始论文。

搜集汇总
数据集介绍
main_image_url
构建方式
Density Estimation Benchmark Datasets数据集的构建旨在为密度估计任务提供多样化的实验平台。该数据集整合了多个领域的数据,包括医学、文本、图像等,通过精心挑选并按照各自领域特点进行预处理,形成了适用于机器学习研究的格式。各数据集包含训练集、验证集和测试集,以支持模型的训练、调优和评估。
特点
该数据集的特点在于其多样性、规模性和实用性。它包含了多种不同类型的数据,既有二分类问题也有多变量问题,满足了不同密度估计算法的需求。数据集规模从几千到几十万不等,适合不同规模的模型训练。此外,所有数据集均提供了详细的文献引用,方便用户在使用时遵循学术规范。
使用方法
使用该数据集时,用户应根据具体的研究需求选择合适的数据集。数据集的使用包括但不限于模型的训练、验证和测试。用户需要遵循README文件中的指导,正确引用相关文献。此外,针对不同的数据集,用户可能需要进行适当的预处理,如数据标准化、缺失值处理等,以确保模型的训练效果。
背景与挑战
背景概述
密度估计是机器学习领域中的一个重要研究课题,其核心任务是根据给定的数据样本集估计数据分布的概率密度函数。Density Estimation Benchmark Datasets 数据集收集了多个用于密度估计的机器学习数据集,旨在为研究人员提供一个统一的平台,以评估和比较不同密度估计方法的性能。该数据集的创建时间为2010年,由Daniel Lowd和Jesse Davis等研究人员提出,并在多个国际学术会议和期刊上得到应用和引用,对密度估计领域的研究产生了显著影响。
当前挑战
该数据集在构建和应用过程中面临的挑战主要包括:1)数据多样性的挑战,涵盖不同领域和特征维度的数据集,要求密度估计方法具备广泛的适用性和鲁棒性;2)数据标注和真实分布获取的挑战,由于部分数据集的真实分布未知或难以获取,导致评估方法性能时存在一定的不确定性;3)大规模数据处理和分析的挑战,部分数据集的样本量和特征维度较大,对计算资源和算法效率提出了较高要求。
常用场景
经典使用场景
密度估计是机器学习中的一项基础任务,旨在从数据中估计概率密度函数。Density Estimation Benchmark Datasets作为一系列用于密度估计的标准数据集,其经典使用场景在于为研究者提供了一个统一的平台,用以比较和评估不同密度估计算法的性能,包括参数和非参数方法。
衍生相关工作
基于这些数据集,研究者们衍生出了众多相关工作,包括对现有密度估计方法的改进、新算法的提出,以及对不同算法在大规模复杂数据集上的性能分析,进一步推动了机器学习领域密度估计技术的发展。
数据集最近研究
最新研究方向
在概率密度估计领域,Density Estimation Benchmark Datasets数据集为研究人员提供了丰富的实验材料。近期研究主要聚焦于提升密度估计模型的准确性和效率,尤其是针对复杂数据结构和大规模数据集。这些研究不仅探索了决策树与马尔可夫网络结构的结合,以学习更为精确的概率分布,还涉及到了随机特征生成方法,以及针对复杂概率查询的可处理学习技术。此外,神经网络自回归分布估计器的应用研究也取得了显著进展,为处理高维数据提供了新的视角。这些研究对于推动概率密度估计技术的发展和应用具有重要意义。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作