awesome-datasets
收藏github2023-03-04 更新2024-05-31 收录
下载链接:
https://github.com/Datatouille/awesome-datasets
下载链接
链接失效反馈官方服务:
资源简介:
精选的机器学习任务数据集,根据用例分类,涵盖了从销售预测到客户细分等多个领域的数据集。
A curated collection of machine learning task datasets, categorized by use cases, covers multiple domains ranging from sales forecasting to customer segmentation.
创建时间:
2018-07-10
原始信息汇总
数据集概述
营销
需求预测
- Rossman:超市销售预测
- 在线产品销售:自助产品销售预测
预测终身价值/最近-频率矩阵
- Lifetimes:计算CLV的合成数据和库
- CDNow:CDNow交易记录
流失/升级销售
- KKBox的流失预测挑战
客户细分
- Instacart市场篮子分析
- 在线零售数据集
- 忠诚客户预测:天猫11/11活动的新客户
产品分组/类别树
- Instacart市场篮子分析
- 在线零售数据集
交叉销售/推荐/市场篮子分析
显式评分
- MovieLens:电影推荐数据集
- Jester:笑话推荐数据集
- Book-Crossings:书籍推荐数据集
- HetRec:音乐推荐数据集
隐式评分
- Instacart市场篮子分析
- WikiLens:Wiki编辑数据集
- OpenStreetMap:OpenStreetMap编辑数据集
渠道归属和优化
- AnalyzeCore:归属模型和合成数据
广告优化
- Avazu点击率预测:移动广告点击率预测
- Avito需求预测挑战:在线分类广告需求预测
广告欺诈
- TalkingData AdTracking欺诈检测挑战
动态定价
- AWS现货定价市场
商店布局优化
客户反馈
- IMDb:电影评论
- 亚马逊评论
- Yelp开放数据集:Yelp评论
- Wongnai挑战:餐厅评论
- OpinRank评论数据集:TripAdvisor和Edmunds评论
客户支持
问题解答
- SQuAD:斯坦福问答数据集
等待时间预测
人力资源
简历筛选
- DonorsChoose.org申请筛选
员工流失
- SAS员工流动率:合成员工流失数据集
- IBM HR员工流动率和绩效:合成员工流失数据集
- 员工流动率:合成员工流失数据集
医疗保健
医学图像分类
- Grand Challenges:生物医学图像竞赛集合
- MURA:肌肉骨骼放射图像异常检测大型数据集
- ISIC:国际皮肤成像协作
- DermNet:皮肤病图集
- TCIA:癌症成像档案
- OASIS:纵向神经成像数据集
- DDSM:数字筛查乳腺摄影数据库
- 乳腺组织病理学图像
- NIH胸部X光片
- HERLEV:Pap-smear数据库
- 斯坦福组织微阵列数据库
- CheXPert
- MIMIC-CXR
再入院风险
- 糖尿病130-US医院数据集
患者报告摘要
自动分类
医院运营管理
- 华盛顿州的医疗保健
- Mini Heritage Health Prize:Heritage Health Prize数据集的处理版本
实时患者监测
- OPPORTUNITY:穿戴式、物体和环境传感器的人类活动识别数据集
- PAMAP2:物理活动监测数据集
生存分析
- Haberman的生存数据集:乳腺癌手术后患者的生存
剂量有效性
媒体
新闻摘要
- 新闻摘要
保险
索赔预测
- TSA索赔数据库
- Allstate索赔严重性
索赔欺诈
政策预测
- 保险公司基准(COIL 2000)数据集
金融
信用评分/贷款批准/债务追收
- Statlog(德国信用数据)数据集
- Statlog(澳大利亚信用批准)数据集
- 家庭信用违约风险
- A Fin tech欺诈交易分类
投资组合优化
- quantmod:金融建模的R库
- 斯坦福EE103:2006至2016年的流行ETF
自动交易
- quantmod:金融建模的R库
- Get Rich or Die Modelin:比特币交易信号
欺诈检测
- 信用卡欺诈检测
- PaySim合成金融数据集
- 比特币交易
制造
质量控制
过程优化
- 梅赛德斯-奔驰更环保的制造
保修分析
设计
- 时尚MNIST:标记的时尚图像
农业、地理和环境
产量预测
- 美国蜂蜜生产(1998-2012)
- 印度农业作物生产
卫星图像分类和提取
- Planet: 理解太空中的亚马逊
- SpaceNet:建筑和道路的注释卫星图像
- Dstl卫星图像特征检测
空气质量
- 意大利空气质量数据集
野生动物分类
- 北美相机陷阱图像(NACTI):被困动物的图像
房地产
定价
- Zillow的房屋价值预测(Zestimate)
教育
自动作文评分
- 惠普基金会:自动作文评分
公用事业
分配网络优化
- 单个家庭电能消耗数据集
其他
- 免费分析调查数据
搜集汇总
数据集介绍

构建方式
awesome-datasets 数据集通过精心筛选和整理,涵盖了机器学习任务中的多个应用场景。其构建过程主要基于Kaggle平台上已失效的文章和竞赛获胜方案,结合了实际业务需求和数据科学的最佳实践。数据集按功能和垂直领域分类,涵盖了市场营销、客户支持、人力资源、医疗保健、媒体、保险、金融、制造业、农业、房地产、教育和公用事业等多个领域。每个数据集都经过详细标注,确保其适用于特定的机器学习任务。
特点
该数据集的特点在于其广泛的应用场景和多样化的数据类型。它不仅包含了传统的结构化数据,还涵盖了文本、图像、时间序列等多种数据形式。每个数据集都经过精心挑选,确保其在实际业务中的实用性和可操作性。此外,数据集还提供了详细的元数据信息,帮助用户快速理解数据的背景和应用场景。这种多样性和实用性使得该数据集成为机器学习研究和应用开发的重要资源。
使用方法
使用awesome-datasets时,用户可以根据具体的机器学习任务选择合适的子数据集。每个数据集都附带了详细的说明文档,帮助用户快速上手。用户可以通过GitHub页面访问数据集,并根据需要下载和使用。对于每个数据集,建议用户首先阅读相关的README文件,了解数据的来源、格式和应用场景。随后,用户可以使用常见的数据分析工具(如Pandas、NumPy等)进行数据预处理和探索性分析,最终应用于机器学习模型的训练和评估。
背景与挑战
背景概述
awesome-datasets是一个精心策划的机器学习任务数据集集合,涵盖了多个领域的实际应用场景。该数据集集合的灵感来源于Kaggle上的一篇现已失效的文章,并由社区贡献者维护和更新。数据集涵盖了市场营销、客户支持、人力资源、医疗保健、媒体、保险、金融、制造业、农业、地理与环境、房地产、教育以及公用事业等多个垂直领域。这些数据集为研究人员和从业者提供了丰富的资源,用于解决实际问题,如需求预测、客户流失分析、医疗图像分类、信用评分等。awesome-datasets的创建旨在为机器学习社区提供一个全面的数据集参考,推动相关领域的研究和应用发展。
当前挑战
awesome-datasets面临的主要挑战包括数据集的多样性和复杂性。首先,不同领域的数据集在数据格式、规模和特征上存在显著差异,这增加了数据预处理和模型训练的难度。其次,部分数据集可能缺乏足够的标注数据,导致模型训练效果受限。此外,数据集的更新和维护也是一个重要挑战,尤其是在数据源发生变化或数据集过时的情况下。最后,如何确保数据集的公平性和代表性,避免偏见和歧视,也是构建和使用这些数据集时需要关注的核心问题。这些挑战不仅影响了数据集的可用性,也对相关领域的研究和应用提出了更高的要求。
常用场景
经典使用场景
awesome-datasets数据集广泛应用于机器学习任务中,特别是在市场营销、医疗保健、金融和制造业等领域。例如,在市场营销中,该数据集被用于需求预测、客户细分和广告优化等任务。通过分析历史销售数据和客户行为,企业能够更准确地预测未来需求,优化库存管理,并制定更有效的营销策略。
衍生相关工作
awesome-datasets衍生了许多经典的研究工作。例如,在推荐系统领域,基于该数据集的MovieLens和Book-Crossings数据集被广泛用于开发个性化推荐算法。在医疗图像分析领域,基于该数据集的MURA和ISIC数据集被用于开发深度学习模型,用于自动检测医学图像中的异常。这些衍生工作不仅推动了相关领域的技术进步,还为实际应用提供了强有力的支持。
数据集最近研究
最新研究方向
在机器学习领域,awesome-datasets数据集的最新研究方向主要集中在多领域应用的深度整合与优化。特别是在市场营销、医疗健康、金融和制造业等领域,数据集的应用正逐步向精细化、智能化方向发展。例如,在市场营销中,数据集被用于客户细分和需求预测,通过深度学习模型提升预测精度;在医疗健康领域,数据集支持医学影像分类和患者再入院风险预测,推动了精准医疗的发展;在金融领域,数据集被广泛应用于信用评分和欺诈检测,通过复杂的网络分析和异常检测算法提高金融安全性。此外,数据集在制造业中的应用也日益增多,尤其是在质量控制和工艺优化方面,通过计算机视觉和数据分析技术提升生产效率和产品质量。这些研究不仅推动了各行业的技术进步,也为数据驱动的决策提供了强有力的支持。
以上内容由遇见数据集搜集并总结生成



