datasets

github2023-07-11 更新2024-05-31 收录

下载链接：

https://github.com/sguys99/datasets

下载链接

链接失效反馈

官方服务：

资源简介：

这是一个用于个人研究和开发教程的数据集仓库，包含了多种分类、回归、时间序列等类型的数据集。

This is a dataset repository designed for personal research and development tutorials, encompassing a variety of dataset types including classification, regression, and time series.

创建时间：

2020-07-17

原始信息汇总

数据集概述

二分类问题

pima-indians-diabets.csv
online_shoppers_intention2.csv : 在线购物者购买意向数据集(不平衡)

多分类问题

DGA : 变压器溶解气体分析数据集(IEC TC 10)
winequality-red.csv : 红葡萄酒质量数据集

回归问题

Apartment_price.csv : 韩国公寓预售趋势
regional_apartment_price.csv : 地区公寓价格

单变量时间序列

airline_passengers.csv : 每月乘客数
BTC-USD.csv : 比特币历史价格
monthly-milk-production.csv
sales-of-shampoo.csv
Henry_Hub_Natural_Gas_Spot_Price.csv : 每日天然气价格
daily-total-female-birth.csv
sunspots.csv : 1749-1983年每月太阳黑子观测数
rare_events.csv : 多变量时间序列中的罕见事件分类
a02.dat : EKG数据
machine_temperature_system_failure.csv : NAB提供
ambient_temperature_system_failure.csv : NAB提供

多变量时间序列

GEFCom2014-E.csv : 每小时能源负荷
energy.csv : 每小时能源负荷(GEFCom2014-E.csv的修改版)
apple_stock.csv
ge_stock.csv : 美国GE约55年的股票价格数据
malaysia_all_data_for_paper.csv : 马来西亚Johor市2009和2010年的每小时负荷数据
bearing_sensor_data.csv : 轴承传感器数据平均值
NAB(Numenta Anomaly Benchmark) dataset : 时间序列异常检测算法评估的新基准
AQ : 空气质量传感器数据集
ETDataset : 电力变压器数据集
- ETTh1.csv
- ETTh2.csv
- ETTm1.csv
- ETTm2.csv

其他

new_york_hotels.csv

搜集汇总

数据集介绍

构建方式

该数据集通过整合多个公开数据源构建而成，涵盖了分类、回归、时间序列等多种机器学习任务。具体而言，数据集从UCI机器学习库、Kaggle、Data.gov等权威平台获取原始数据，并经过清洗和格式化处理，确保数据的完整性和一致性。例如，时间序列数据如比特币价格和天然气价格来自金融和能源领域的公开数据集，而分类数据如糖尿病预测和在线购物者意图则来自经典的机器学习数据集。

使用方法

该数据集的使用方法灵活多样，适用于多种机器学习任务。对于分类任务，用户可以直接加载如pima-indians-diabets.csv等文件进行二分类或多分类实验。对于回归任务，如Apartment_price.csv，可用于房价趋势预测。时间序列数据如airline_passengers.csv和BTC-USD.csv则可用于时间序列分析和预测模型的训练与验证。此外，数据集中的注释和来源链接为用户提供了进一步探索和扩展的可能性。

背景与挑战

背景概述

datasets数据集是一个涵盖多种机器学习任务的综合性数据集集合，主要用于个人研究和开发教程。该数据集由多个子集组成，涉及二分类、多分类、回归、单变量时间序列和多变量时间序列等多种任务。数据集中的部分数据来源于公开的学术资源，如UCI机器学习库、Kaggle平台以及GitHub上的开源项目。这些数据集广泛应用于机器学习模型的训练与评估，尤其在时间序列分析、异常检测和预测等领域具有重要价值。尽管该数据集并非由单一研究机构或团队创建，但其多样性和广泛的应用场景使其成为机器学习研究中的重要资源。

当前挑战

datasets数据集面临的主要挑战包括数据质量和多样性的平衡。首先，部分数据集存在类别不平衡问题，如在线购物者购买意图数据集，这可能导致模型在训练过程中偏向多数类，影响分类性能。其次，时间序列数据集的复杂性和高维度特性增加了模型训练的难度，尤其是在异常检测和预测任务中。此外，数据集的来源多样，格式和预处理方式不一致，增加了数据整合和清洗的复杂性。最后，尽管数据集涵盖了多个领域，但某些特定领域的数据仍然稀缺，限制了模型的泛化能力。这些挑战要求研究者在数据预处理、模型选择和评估方法上进行深入探索。

常用场景

经典使用场景

在机器学习领域，该数据集广泛应用于分类、回归和时间序列分析等任务。例如，pima-indians-diabetes.csv和online_shoppers_intention2.csv常用于二分类问题的研究，而winequality-red.csv则用于多分类问题的探索。此外，BTC-USD.csv和Henry_Hub_Natural_Gas_Spot_Price.csv等时间序列数据集为金融和能源市场的预测提供了丰富的数据支持。

解决学术问题

该数据集解决了多个学术研究中的关键问题，如不平衡数据分类、时间序列异常检测和多元回归分析。例如，rare_events.csv为稀有事件检测提供了真实世界的数据，帮助研究者开发更精确的异常检测算法。ETDataset则为电力变压器的故障预测和健康管理提供了宝贵的数据资源，推动了相关领域的研究进展。

实际应用

在实际应用中，该数据集被广泛用于金融、医疗、能源和制造业等领域。例如，BTC-USD.csv可用于比特币价格预测，帮助投资者做出更明智的决策。Henry_Hub_Natural_Gas_Spot_Price.csv则为天然气市场的价格波动分析提供了数据支持。此外，bearing_sensor_data.csv在工业设备的故障预测和维护中发挥了重要作用，提高了设备的运行效率和安全性。

数据集最近研究