UCI Machine Learning Repository|机器学习数据集|经典数据集
收藏数据集概述
数据集名称
UCI Machine Learning Repository in CSV
数据集描述
UCI Machine Learning Repository是一个包含数据库、领域理论和数据生成器的集合,用于机器学习社区进行机器学习算法的实证分析。
数据集使用方法
Python代码示例
python import numpy as np import pandas as pd
URL = "https://archive.ics.uci.edu/ml/machine-learning-databases/adult/adult.data" Col_Names = [age,workclass,fnlwgt,education,education-num,marital-status,occupation,relationship,race,sex,capital-loss,hours-per-week,native-country,Income]
Data = pd.read_csv(URL,header=None) Data.columns = Col_Names Data
数据集属性信息
数据集包含以下属性:
- age
- workclass
- fnlwgt
- education
- education-num
- marital-status
- occupation
- relationship
- race
- sex
- capital-loss
- hours-per-week
- native-country
- Income
数据集获取步骤
- 访问UCI Machine Learning Repository
- 选择数据集
- 复制数据URL
- 复制属性信息

- UCI Machine Learning Repository首次发表,由加州大学欧文分校(UCI)的David Aha和其同事创建,旨在为机器学习研究提供一个公共数据集资源。
- 数据集数量显著增加,涵盖了多个领域,包括分类、回归和聚类等,成为学术界和工业界广泛使用的资源。
- UCI Machine Learning Repository开始提供在线访问和下载服务,进一步促进了其在全球范围内的使用和影响力。
- 数据集的质量和多样性进一步提升,新增了大量高质量的数据集,涵盖了更多新兴领域和应用场景。
- UCI Machine Learning Repository继续扩展,数据集数量超过500个,成为全球最受欢迎和广泛使用的机器学习数据集资源之一。
CatMeows
该数据集包含440个声音样本,由21只属于两个品种(缅因州库恩猫和欧洲短毛猫)的猫在三种不同情境下发出的喵声组成。这些情境包括刷毛、在陌生环境中隔离和等待食物。每个声音文件都遵循特定的命名约定,包含猫的唯一ID、品种、性别、猫主人的唯一ID、录音场次和发声计数。此外,还有一个额外的zip文件,包含被排除的录音(非喵声)和未剪辑的连续发声序列。
huggingface 收录
中国交通事故深度调查(CIDAS)数据集
交通事故深度调查数据通过采用科学系统方法现场调查中国道路上实际发生交通事故相关的道路环境、道路交通行为、车辆损坏、人员损伤信息,以探究碰撞事故中车损和人伤机理。目前已积累深度调查事故10000余例,单个案例信息包含人、车 、路和环境多维信息组成的3000多个字段。该数据集可作为深入分析中国道路交通事故工况特征,探索事故预防和损伤防护措施的关键数据源,为制定汽车安全法规和标准、完善汽车测评试验规程、
北方大数据交易中心 收录
MOOCs Dataset
该数据集包含了大规模开放在线课程(MOOCs)的相关数据,包括课程信息、用户行为、学习进度等。数据主要用于研究在线教育的行为模式和学习效果。
www.kaggle.com 收录
UIEB, U45, LSUI
本仓库提供了水下图像增强方法和数据集的实现,包括UIEB、U45和LSUI等数据集,用于支持水下图像增强的研究和开发。
github 收录
Beijing Traffic
The Beijing Traffic Dataset collects traffic speeds at 5-minute granularity for 3126 roadway segments in Beijing between 2022/05/12 and 2022/07/25.
Papers with Code 收录