awesome-datasets

github2023-03-04 更新2024-05-31 收录

下载链接：

https://github.com/Datatouille/awesome-datasets

下载链接

链接失效反馈

官方服务：

资源简介：

精选的机器学习任务数据集，根据用例分类，涵盖了从销售预测到客户细分等多个领域的数据集。

A curated collection of machine learning task datasets, categorized by use cases, covers multiple domains ranging from sales forecasting to customer segmentation.

创建时间：

2018-07-10

原始信息汇总

数据集概述

营销

需求预测

Rossman：超市销售预测
在线产品销售：自助产品销售预测

预测终身价值/最近-频率矩阵

Lifetimes：计算CLV的合成数据和库
CDNow：CDNow交易记录

流失/升级销售

KKBox的流失预测挑战

客户细分

Instacart市场篮子分析
在线零售数据集
忠诚客户预测：天猫11/11活动的新客户

产品分组/类别树

Instacart市场篮子分析
在线零售数据集

交叉销售/推荐/市场篮子分析

显式评分

MovieLens：电影推荐数据集
Jester：笑话推荐数据集
Book-Crossings：书籍推荐数据集
HetRec：音乐推荐数据集

隐式评分

Instacart市场篮子分析
WikiLens：Wiki编辑数据集
OpenStreetMap：OpenStreetMap编辑数据集

渠道归属和优化

AnalyzeCore：归属模型和合成数据

广告优化

Avazu点击率预测：移动广告点击率预测
Avito需求预测挑战：在线分类广告需求预测

广告欺诈

TalkingData AdTracking欺诈检测挑战

动态定价

AWS现货定价市场

商店布局优化

客户反馈

IMDb：电影评论
亚马逊评论
Yelp开放数据集：Yelp评论
Wongnai挑战：餐厅评论
OpinRank评论数据集：TripAdvisor和Edmunds评论

客户支持

问题解答

SQuAD：斯坦福问答数据集

等待时间预测

人力资源

简历筛选

DonorsChoose.org申请筛选

员工流失

SAS员工流动率：合成员工流失数据集
IBM HR员工流动率和绩效：合成员工流失数据集
员工流动率：合成员工流失数据集

医疗保健

医学图像分类

Grand Challenges：生物医学图像竞赛集合
MURA：肌肉骨骼放射图像异常检测大型数据集
ISIC：国际皮肤成像协作
DermNet：皮肤病图集
TCIA：癌症成像档案
OASIS：纵向神经成像数据集
DDSM：数字筛查乳腺摄影数据库
乳腺组织病理学图像
NIH胸部X光片
HERLEV：Pap-smear数据库
斯坦福组织微阵列数据库
CheXPert
MIMIC-CXR

再入院风险

糖尿病130-US医院数据集

患者报告摘要

自动分类

医院运营管理

华盛顿州的医疗保健
Mini Heritage Health Prize：Heritage Health Prize数据集的处理版本

实时患者监测

OPPORTUNITY：穿戴式、物体和环境传感器的人类活动识别数据集
PAMAP2：物理活动监测数据集

生存分析

Haberman的生存数据集：乳腺癌手术后患者的生存

剂量有效性

媒体

新闻摘要

新闻摘要

保险

索赔预测

TSA索赔数据库
Allstate索赔严重性

索赔欺诈

政策预测

保险公司基准（COIL 2000）数据集

金融

信用评分/贷款批准/债务追收

Statlog（德国信用数据）数据集
Statlog（澳大利亚信用批准）数据集
家庭信用违约风险
A Fin tech欺诈交易分类

投资组合优化

quantmod：金融建模的R库
斯坦福EE103：2006至2016年的流行ETF

自动交易

quantmod：金融建模的R库
Get Rich or Die Modelin：比特币交易信号

欺诈检测

信用卡欺诈检测
PaySim合成金融数据集
比特币交易

制造

质量控制

过程优化

梅赛德斯-奔驰更环保的制造

保修分析

设计

时尚MNIST：标记的时尚图像

农业、地理和环境

产量预测

美国蜂蜜生产（1998-2012）
印度农业作物生产

卫星图像分类和提取

Planet: 理解太空中的亚马逊
SpaceNet：建筑和道路的注释卫星图像
Dstl卫星图像特征检测

空气质量

意大利空气质量数据集

野生动物分类

北美相机陷阱图像（NACTI）：被困动物的图像

房地产

定价

Zillow的房屋价值预测（Zestimate）

教育

自动作文评分

惠普基金会：自动作文评分

公用事业

分配网络优化

单个家庭电能消耗数据集

其他

免费分析调查数据

搜集汇总

数据集介绍

构建方式

awesome-datasets 数据集通过精心筛选和整理，涵盖了机器学习任务中的多个应用场景。其构建过程主要基于Kaggle平台上已失效的文章和竞赛获胜方案，结合了实际业务需求和数据科学的最佳实践。数据集按功能和垂直领域分类，涵盖了市场营销、客户支持、人力资源、医疗保健、媒体、保险、金融、制造业、农业、房地产、教育和公用事业等多个领域。每个数据集都经过详细标注，确保其适用于特定的机器学习任务。

特点

该数据集的特点在于其广泛的应用场景和多样化的数据类型。它不仅包含了传统的结构化数据，还涵盖了文本、图像、时间序列等多种数据形式。每个数据集都经过精心挑选，确保其在实际业务中的实用性和可操作性。此外，数据集还提供了详细的元数据信息，帮助用户快速理解数据的背景和应用场景。这种多样性和实用性使得该数据集成为机器学习研究和应用开发的重要资源。

使用方法

使用awesome-datasets时，用户可以根据具体的机器学习任务选择合适的子数据集。每个数据集都附带了详细的说明文档，帮助用户快速上手。用户可以通过GitHub页面访问数据集，并根据需要下载和使用。对于每个数据集，建议用户首先阅读相关的README文件，了解数据的来源、格式和应用场景。随后，用户可以使用常见的数据分析工具（如Pandas、NumPy等）进行数据预处理和探索性分析，最终应用于机器学习模型的训练和评估。

背景与挑战

背景概述

awesome-datasets是一个精心策划的机器学习任务数据集集合，涵盖了多个领域的实际应用场景。该数据集集合的灵感来源于Kaggle上的一篇现已失效的文章，并由社区贡献者维护和更新。数据集涵盖了市场营销、客户支持、人力资源、医疗保健、媒体、保险、金融、制造业、农业、地理与环境、房地产、教育以及公用事业等多个垂直领域。这些数据集为研究人员和从业者提供了丰富的资源，用于解决实际问题，如需求预测、客户流失分析、医疗图像分类、信用评分等。awesome-datasets的创建旨在为机器学习社区提供一个全面的数据集参考，推动相关领域的研究和应用发展。

当前挑战

awesome-datasets面临的主要挑战包括数据集的多样性和复杂性。首先，不同领域的数据集在数据格式、规模和特征上存在显著差异，这增加了数据预处理和模型训练的难度。其次，部分数据集可能缺乏足够的标注数据，导致模型训练效果受限。此外，数据集的更新和维护也是一个重要挑战，尤其是在数据源发生变化或数据集过时的情况下。最后，如何确保数据集的公平性和代表性，避免偏见和歧视，也是构建和使用这些数据集时需要关注的核心问题。这些挑战不仅影响了数据集的可用性，也对相关领域的研究和应用提出了更高的要求。

常用场景

经典使用场景

awesome-datasets数据集广泛应用于机器学习任务中，特别是在市场营销、医疗保健、金融和制造业等领域。例如，在市场营销中，该数据集被用于需求预测、客户细分和广告优化等任务。通过分析历史销售数据和客户行为，企业能够更准确地预测未来需求，优化库存管理，并制定更有效的营销策略。

衍生相关工作

awesome-datasets衍生了许多经典的研究工作。例如，在推荐系统领域，基于该数据集的MovieLens和Book-Crossings数据集被广泛用于开发个性化推荐算法。在医疗图像分析领域，基于该数据集的MURA和ISIC数据集被用于开发深度学习模型，用于自动检测医学图像中的异常。这些衍生工作不仅推动了相关领域的技术进步，还为实际应用提供了强有力的支持。

数据集最近研究