OpenML|机器学习数据集|数据挖掘数据集

re3data.org2024-05-31 收录

机器学习

数据挖掘

下载链接：

https://www.re3data.org/repository/r3d100011098

下载链接

链接失效反馈

资源简介：

OpenML is an open ecosystem for machine learning. By organizing all resources and results online, research becomes more efficient, useful and fun. OpenML is a platform to share detailed experimental results with the community at large and organize them for future reuse. Moreover, it will be directly integrated in today’s most popular data mining tools (for now: R, KNIME, RapidMiner and WEKA). Such an easy and free exchange of experiments has tremendous potential to speed up machine learning research, to engender larger, more detailed studies and to offer accurate advice to practitioners. Finally, it will also be a valuable resource for education in machine learning and data mining.

OpenML是一个开放的机器学习生态系统。通过在线组织所有资源和结果，研究工作变得更加高效、有益且充满乐趣。OpenML是一个平台，旨在与广大社区分享详细的实验结果，并为其未来的重用进行组织。此外，它将直接集成到当今最受欢迎的数据挖掘工具中（目前包括：R、KNIME、RapidMiner和Weka）。如此便捷且免费的实验交流具有巨大的潜力，能够加速机器学习研究，孕育出更大规模、更详细的调查，并为从业者提供精确的建议。最终，它也将成为机器学习和数据挖掘教育领域的一项宝贵资源。

提供机构：

Open Machine Learning

AI搜集汇总

数据集介绍

构建方式

OpenML数据集的构建基于全球研究者和数据科学家的协作，通过开放平台收集和整理来自不同领域的数据。其构建过程包括数据上传、标准化处理、元数据标注以及质量控制等步骤，确保数据的多样性和可靠性。

特点

OpenML数据集以其广泛性和多样性著称，涵盖了从经典机器学习到深度学习的多种任务类型。其特点包括数据来源广泛、格式标准化、元数据丰富，以及支持自动化机器学习实验，为研究者和开发者提供了便捷的数据资源。

使用方法

使用OpenML数据集时，用户可以通过API接口或网页界面访问和下载数据。数据集支持多种编程语言和工具，如Python、R等，便于集成到现有的工作流程中。用户可以根据需求选择特定的数据集进行实验和分析，同时利用平台提供的元数据进行数据探索和预处理。

背景与挑战

背景概述

OpenML，作为机器学习领域的开放平台，由Vanschoren等人于2013年创建，旨在促进机器学习研究的透明性和可重复性。该平台汇集了来自全球研究者的数据集、算法和实验结果，为学术界和工业界提供了一个共享和协作的中心。OpenML的核心研究问题包括如何有效地管理和共享大规模机器学习资源，以及如何通过标准化流程提高实验的可重复性。其影响力在于推动了机器学习社区的开放科学运动，使得研究成果更易于验证和扩展。

当前挑战

尽管OpenML在促进机器学习资源共享方面取得了显著成就，但其面临的挑战依然严峻。首先，数据集的质量和多样性问题，确保每个上传的数据集都经过严格的质量控制和标准化处理，是一项艰巨的任务。其次，随着数据集规模的不断增长，如何高效地存储和检索这些数据，同时保证数据的安全性和隐私性，是OpenML必须解决的技术难题。此外，如何激励更多的研究者参与数据集的贡献和使用，以保持平台的活跃度和持续发展，也是OpenML需要面对的社会和组织挑战。

发展历史

创建时间与更新

OpenML数据集于2013年首次发布，旨在促进机器学习研究的开放性和可重复性。自发布以来，该数据集经历了多次更新，最近一次重大更新发生在2021年，以适应不断发展的机器学习社区的需求。

重要里程碑

OpenML的一个重要里程碑是其在2015年与UCI机器学习库的整合，这一举措极大地扩展了其数据资源的多样性和可用性。此外，2017年，OpenML推出了其API的重大升级，使得数据集的访问和使用变得更加便捷和高效。这些里程碑不仅提升了OpenML在学术界和工业界的知名度，也为其后续的发展奠定了坚实的基础。

当前发展情况

当前，OpenML已成为机器学习领域中不可或缺的资源平台，支持全球范围内的研究人员和开发者进行数据共享和实验。其强大的社区支持和持续的技术更新，使得OpenML能够不断适应新兴的机器学习技术和方法。通过提供丰富的数据集和实验工具，OpenML在推动机器学习研究的透明度和可重复性方面发挥了重要作用，进一步促进了该领域的创新和发展。

发展历程

OpenML项目由Joaquin Vanschoren教授在荷兰埃因霍温理工大学发起，旨在创建一个开放的机器学习平台，促进数据和算法的共享与协作。
2010年
OpenML平台正式上线，首次发布并开放给公众使用，标志着机器学习社区开始广泛采用这一平台进行数据集和实验的共享。
2013年
OpenML发布了其首个API，使得开发者能够通过编程方式访问和上传数据集，进一步推动了平台的自动化和集成。
2014年
OpenML与多个国际研究机构和公司合作，扩展了其数据集库，增加了对多种机器学习任务的支持，包括分类、回归和聚类等。
2016年
OpenML推出了新的版本，引入了对深度学习模型的支持，并改进了用户界面和用户体验，吸引了更多研究者和企业的参与。
2018年
OpenML发布了其数据集质量评估工具，帮助用户更好地理解和选择高质量的数据集，提升了平台的实用性和可靠性。
2020年
OpenML与多个开源社区和标准组织合作，推动了数据集和实验结果的标准化，促进了跨平台和跨领域的数据共享与协作。
2022年

常用场景

经典使用场景

在机器学习和数据挖掘领域，OpenML数据集被广泛用于算法比较和基准测试。研究者们利用OpenML提供的多样化数据集，进行模型性能评估和优化，从而推动了算法的创新与发展。通过OpenML，研究者可以轻松访问和共享数据集，促进了跨学科的合作与交流。

衍生相关工作

基于OpenML数据集，许多经典工作得以展开。例如，研究者们开发了多种自动化机器学习工具，如Auto-sklearn和TPOT，这些工具利用OpenML的数据集进行模型选择和参数优化。此外，OpenML还激发了关于数据集质量和标注的研究，推动了数据清洗和预处理技术的发展。

数据集最近研究

相关研究论文

1
OpenML: Networked Science in Machine LearningUniversity of Freiburg · 2010年
2
OpenML: An R Package to Connect to the Machine Learning Platform OpenMLUniversity of Freiburg · 2014年
3
OpenML: An Open Science Platform for the Machine Learning CommunityUniversity of Freiburg · 2019年
4
The OpenML Platform for Machine Learning ExperimentationUniversity of Freiburg · 2020年
5
OpenML-Python: An Open Source Python API for OpenMLUniversity of Freiburg · 2021年

以上内容由AI搜集并总结生成

用户留言

有没有相关的论文或文献参考？

这个数据集是基于什么背景创建的？

数据集的作者是谁？

能帮我联系到这个数据集的作者吗？

这个数据集如何下载？

点击留言

数据主题

具身智能

数据集 4098个

机构 8个

大模型

数据集 439个

机构 10个

无人机

数据集 37个

机构 6个

指令微调

数据集 36个

机构 6个

蛋白质结构

数据集 50个

机构 8个

空间智能

数据集 21个

机构 5个

5,000+

优质数据集

54 个

任务类型

进入经典数据集

热门数据集

Subway Dataset

该数据集包含了全球多个城市的地铁系统数据，包括车站信息、线路图、列车时刻表、乘客流量等。数据集旨在帮助研究人员和开发者分析和模拟城市交通系统，优化地铁运营和乘客体验。

www.kaggle.com 收录

中国1km分辨率逐月降水量数据集（1901-2023）

该数据集为中国逐月降水量数据，空间分辨率为0.0083333°（约1km），时间为1901.1-2023.12。数据格式为NETCDF，即.nc格式。该数据集是根据CRU发布的全球0.5°气候数据集以及WorldClim发布的全球高分辨率气候数据集，通过Delta空间降尺度方案在中国降尺度生成的。并且，使用496个独立气象观测点数据进行验证，验证结果可信。本数据集包含的地理空间范围是全国主要陆地（包含港澳台地区），不含南海岛礁等区域。为了便于存储，数据均为int16型存于nc文件中，降水单位为0.1mm。 nc数据可使用ArcMAP软件打开制图; 并可用Matlab软件进行提取处理，Matlab发布了读入与存储nc文件的函数，读取函数为ncread，切换到nc文件存储文件夹，语句表达为：ncread (‘XXX.nc’,‘var’, [i j t],[leni lenj lent])，其中XXX.nc为文件名，为字符串需要’’；var是从XXX.nc中读取的变量名，为字符串需要’’；i、j、t分别为读取数据的起始行、列、时间，leni、lenj、lent i分别为在行、列、时间维度上读取的长度。这样，研究区内任何地区、任何时间段均可用此函数读取。Matlab的help里面有很多关于nc数据的命令，可查看。数据坐标系统建议使用WGS84。

国家青藏高原科学数据中心收录

LibriSpeech

LibriSpeech 是一个大约 1000 小时的 16kHz 英语朗读语音语料库，由 Vassil Panayotov 在 Daniel Povey 的协助下编写。数据来自 LibriVox 项目的已读有声读物，并经过仔细分割和对齐。

OpenDataLab 收录

CatMeows

该数据集包含440个声音样本，由21只属于两个品种（缅因州库恩猫和欧洲短毛猫）的猫在三种不同情境下发出的喵声组成。这些情境包括刷毛、在陌生环境中隔离和等待食物。每个声音文件都遵循特定的命名约定，包含猫的唯一ID、品种、性别、猫主人的唯一ID、录音场次和发声计数。此外，还有一个额外的zip文件，包含被排除的录音（非喵声）和未剪辑的连续发声序列。

huggingface 收录

长江干流实时水位观测数据集（2024年）

该数据集为长江干流主要水文站实时水位观测数据集，包含了汉口、户口、九江、宜昌等16个水文站点的逐小时或逐日水位观测数据。该数据集包含3个excel表格文件，长江干流站点.xls，逐日水位.xlsx，逐小时水位.xlsx。

国家地球系统科学数据中心收录