awesome-datasets

github2023-03-04 更新2024-05-31 收录

下载链接：

https://github.com/Datatouille/datasets

下载链接

链接失效反馈

官方服务：

资源简介：

精选的数据集，根据不同的用例用于机器学习任务。

A curated dataset designed for machine learning tasks across various use cases.

创建时间：

2018-07-10

原始信息汇总

数据集概述

营销

需求预测

Rossman：超市销售预测
在线产品销售：自助产品销售预测

预测终身价值/最近频率矩阵

Lifetimes：计算CLV的合成数据和库
CDNow：CDNow交易记录

流失/升级

KKBox的流失预测挑战

客户细分

Instacart市场篮子分析
在线零售数据集
忠诚客户预测：天猫11/11活动的新客户

产品分组/类别树

Instacart市场篮子分析
在线零售数据集

交叉销售/推荐/市场篮子分析

MovieLens：电影推荐数据集
Jester：笑话推荐数据集
Book-Crossings：书籍推荐数据集
HetRec：音乐推荐数据集
Instacart市场篮子分析
WikiLens：Wiki编辑数据集
OpenStreetMap：OpenStreetMap编辑数据集

渠道归因和优化

AnalyzeCore：归因模型和合成数据

广告优化

Avazu点击率预测：移动广告点击率预测
Avito需求预测挑战：在线分类广告需求预测

广告欺诈

TalkingData AdTracking欺诈检测挑战

动态定价

AWS现货定价市场

商店布局优化

客户反馈

IMDb：电影评论
亚马逊评论
Yelp开放数据集：Yelp评论
Wongnai挑战：餐厅评论
OpinRank评论数据集：TripAdvisor和Edmunds评论

客户支持

问题解答

SQuAD：斯坦福问答数据集

等待时间预测

人力资源

简历筛选

DonorsChoose.org申请筛选

员工流失

SAS员工流失：合成员工流失数据集
IBM HR员工流失和绩效：合成员工流失数据集
员工流失：合成员工流失数据集

医疗保健

医学图像分类

Grand Challenges：生物医学图像竞赛集合
MURA：肌肉骨骼放射图像异常检测大型数据集
ISIC：国际皮肤影像协作
DermNet：皮肤病图集
TCIA：癌症影像档案
OASIS：纵向神经影像数据集
DDSM：数字筛查乳腺摄影数据库
乳腺组织病理学图像
NIH胸部X光片
HERLEV：Pap-smear数据库
斯坦福组织微阵列数据库
CheXPert
MIMIC-CXR

再入院风险

糖尿病130-US医院数据集

患者报告摘要

自动分类

医院运营管理

华盛顿医疗保健
Mini Heritage Health Prize：Heritage Health Prize数据集的处理版本

实时患者监控

OPPORTUNITY：穿戴、物体和环境传感器的人类活动识别数据集
PAMAP2：物理活动监控数据集

生存分析

Haberman的生存数据集：乳腺癌手术后患者的生存数据

剂量有效性

媒体

新闻摘要

新闻摘要

保险

索赔预测

TSA索赔数据库
Allstate索赔严重性

索赔欺诈

政策预测

**保险

搜集汇总

数据集介绍

构建方式

awesome-datasets数据集是通过精心筛选和整理来自多个公开数据源的数据集构建而成，涵盖了机器学习任务中的多种应用场景。这些数据集主要来源于Kaggle竞赛、学术机构公开数据集以及行业内的开源项目。数据集的构建过程注重多样性和实用性，确保每个数据集都能解决特定的实际问题，并为不同领域的机器学习任务提供支持。

特点

该数据集的特点在于其广泛的应用领域和丰富的数据类型。它涵盖了市场营销、医疗健康、金融、制造业等多个垂直领域，每个领域下又细分为多个具体任务，如需求预测、客户细分、医疗图像分类等。数据集不仅包含结构化数据，还涉及文本、图像等多种数据类型，能够满足不同机器学习模型的需求。此外，数据集的质量和来源经过严格筛选，确保了数据的可靠性和实用性。

使用方法

使用awesome-datasets时，用户可以根据具体的机器学习任务选择相应的数据集。每个数据集都附有详细的说明和使用场景，用户可以通过GitHub页面或Kaggle平台获取数据并进行预处理。数据集通常以CSV、JSON或图像文件的形式提供，便于直接加载到机器学习框架中进行训练和测试。用户还可以参考数据集附带的案例研究和竞赛解决方案，进一步优化模型性能。

背景与挑战

背景概述

awesome-datasets 是一个精心策划的机器学习任务数据集集合，涵盖了多个领域和用例。该数据集的创建灵感来源于一篇已停用的 Kaggle 文章，并由多个开源社区和研究人员共同维护。数据集的核心研究问题在于为不同领域的机器学习任务提供高质量、多样化的数据支持，涵盖了从市场营销、医疗保健到金融、制造业等多个垂直领域。通过整合来自 Kaggle、UCI 机器学习库等知名数据源的数据，awesome-datasets 为研究人员和从业者提供了一个便捷的参考平台，极大地推动了机器学习在实际问题中的应用。

当前挑战

awesome-datasets 面临的挑战主要包括两个方面。首先，数据集所涵盖的领域问题多样化，例如图像分类、需求预测、客户流失分析等，每个领域问题的数据特征和建模需求各不相同，这对数据集的通用性和适用性提出了较高要求。其次，在数据集的构建过程中，数据来源的多样性和数据质量的参差不齐是主要挑战。不同数据源的数据格式、标注标准以及数据完整性存在显著差异，如何有效整合和清洗这些数据以确保其可用性，是一个复杂且耗时的过程。此外，随着新领域的不断涌现，如何持续更新和扩展数据集以保持其时效性和相关性，也是一个亟待解决的问题。

常用场景

经典使用场景

awesome-datasets数据集在机器学习任务中广泛应用于多个领域，尤其是在市场营销、医疗保健和金融等领域。例如，在市场营销中，该数据集被用于需求预测、客户流失分析和产品推荐系统。通过整合多种数据源，研究人员能够构建复杂的模型来预测销售趋势、客户行为和市场动态。

实际应用

在实际应用中，awesome-datasets数据集为企业提供了强大的数据支持。例如，在零售行业，企业利用该数据集进行库存管理和动态定价优化，从而提升运营效率和利润。在广告行业，数据集被用于广告点击率预测和广告欺诈检测，帮助企业优化广告投放策略并减少无效支出。

衍生相关工作

该数据集衍生了许多经典的研究工作。例如，基于Rossman超市销售数据的研究推动了时间序列预测模型的发展。在医疗领域，MURA和ISIC数据集的研究成果显著提升了医学图像分析的准确性。此外，MovieLens数据集的研究为推荐系统算法的优化提供了重要参考，推动了个性化推荐技术的发展。

以上内容由遇见数据集搜集并总结生成