probabilistic-backpropagation-dataset
收藏github2023-08-10 更新2024-05-31 收录
下载链接:
https://github.com/yiyuezhuo/probabilistic-backpropagation-dataset
下载链接
链接失效反馈官方服务:
资源简介:
用于评估概率反向传播算法性能的10个数据集,主要用于贝叶斯神经网络的可扩展学习。这些数据集主要是非线性回归数据,格式稍显混乱,但提供了统一的接口。
Ten datasets for evaluating the performance of probabilistic backpropagation algorithms, primarily used for scalable learning in Bayesian neural networks. These datasets mainly consist of nonlinear regression data, with a somewhat chaotic format, but they provide a unified interface.
创建时间:
2019-11-02
原始信息汇总
数据集概述
数据集列表
-
Boston Housing
- 数据来源:archive.ics.uci.edu
- 样本数(N):506
- 特征数(d):13
-
Combined Cycle Power Plant
- 数据来源:archive.ics.uci.edu
- 样本数(N):9568
- 特征数(d):4
-
Concrete Compression Strength
- 数据来源:archive.ics.uci.edu
- 样本数(N):1030
- 特征数(d):8
-
Energy Efficiency
- 数据来源:archive.ics.uci.edu
- 样本数(N):768
- 特征数(d):8
-
Kin8nm
- 数据来源:GitHub
- 样本数(N):8192
- 特征数(d):8
-
Naval Propulsion
- 数据来源:archive.ics.uci.edu
- 样本数(N):11934
- 特征数(d):16
-
Protein Structure
- 数据来源:archive.ics.uci.edu
- 样本数(N):45730
- 特征数(d):9
-
Wine Quality Red
- 数据来源:archive.ics.uci.edu
- 样本数(N):1599
- 特征数(d):11
-
Yacht Hydrodynamics
- 数据来源:archive.ics.uci.edu
- 样本数(N):308
- 特征数(d):6
-
Year Prediction MSD
- 数据来源:archive.ics.uci.edu
- 样本数(N):515345
- 特征数(d):90
数据集特点
- 所有数据集主要用于评估概率反向传播算法在贝叶斯神经网络学习中的性能。
- 数据集类型为非线性回归数据集,格式较为杂乱。
- 9个数据集来自
archive.ics.uci.edu,剩余1个Kin8nm因原始链接失效,从另一个GitHub仓库获取。 - 数据集统一通过
pandas.DataFrame接口加载。
搜集汇总
数据集介绍

构建方式
该数据集是为评估贝叶斯神经网络的可扩展学习算法而构建的,包含了10个非线性回归数据集。其中9个数据集直接来源于UCI机器学习库,另一个名为`Kin8nm`的数据集由于原始链接失效,从GitHub仓库中获取。所有数据集均以`pandas.DataFrame`格式提供,确保了数据的一致性和易用性。
特点
该数据集的特点在于其多样性和广泛的应用场景,涵盖了从房屋价格预测到蛋白质结构分析等多个领域。每个数据集都包含了大量的样本和多个特征维度,能够有效评估贝叶斯神经网络在不同任务中的性能。此外,数据集的格式经过统一处理,便于用户直接加载和使用。
使用方法
用户可以通过调用`load`函数加载数据集,并通过`listed`函数查看所有可用的数据集名称。每个数据集以字典形式返回,包含数据表`df`和特征列`exog_columns`。通过简单的Python脚本,用户可以快速获取数据集的样本数量和特征维度,从而进行进一步的分析和模型训练。
背景与挑战
背景概述
probabilistic-backpropagation-dataset数据集由《Probabilistic backpropagation for scalable learning of bayesian neural networks》论文提出,旨在评估贝叶斯神经网络的可扩展学习算法性能。该数据集包含10个非线性回归任务,涵盖了从房价预测到蛋白质结构分析等多个领域。这些数据集主要来源于UCI机器学习库,部分数据通过GitHub获取。该数据集的创建为贝叶斯神经网络的研究提供了重要的实验基础,推动了概率推理与深度学习结合的研究进展。
当前挑战
该数据集面临的挑战主要体现在两个方面。首先,数据格式的异构性增加了数据处理的复杂性,部分数据集需要额外的清洗和转换工作。其次,由于数据来源多样,部分原始链接失效,导致数据获取困难,例如Kin8nm数据集需要通过GitHub获取。此外,Year Prediction MSD数据集规模庞大,超过200MB,对存储和计算资源提出了较高要求。这些挑战不仅影响了数据集的构建过程,也对算法的性能评估提出了更高的要求。
常用场景
经典使用场景
在贝叶斯神经网络的可扩展学习研究中,`probabilistic-backpropagation-dataset`数据集被广泛用于评估概率反向传播算法的性能。这些数据集涵盖了从房屋价格预测到能源效率分析等多个领域的非线性回归问题,为研究者提供了一个统一的测试平台。通过使用这些数据集,研究者能够验证算法在不同数据规模和复杂度下的表现,从而推动贝叶斯神经网络的理论和应用发展。
实际应用
在实际应用中,`probabilistic-backpropagation-dataset`数据集被用于多个领域的预测和优化任务。例如,在能源领域,该数据集可用于预测发电厂的输出功率;在材料科学中,可用于评估混凝土的抗压强度;在生物信息学中,可用于分析蛋白质的三级结构。这些应用不仅提高了预测的准确性,还为相关领域的决策提供了科学依据。
衍生相关工作
基于该数据集,研究者们开发了一系列经典的工作。例如,一些研究通过改进概率反向传播算法,进一步提升了贝叶斯神经网络的性能;另一些研究则将该算法应用于更广泛的领域,如金融预测和医疗诊断。这些衍生工作不仅扩展了贝叶斯神经网络的应用范围,还推动了相关领域的理论和技术进步。
以上内容由遇见数据集搜集并总结生成



