UCI Machine Learning Repository|机器学习数据集|经典数据集
收藏数据集概述
数据集名称
UCI Machine Learning Repository in CSV
数据集描述
UCI Machine Learning Repository是一个包含数据库、领域理论和数据生成器的集合,用于机器学习社区进行机器学习算法的实证分析。
数据集使用方法
Python代码示例
python import numpy as np import pandas as pd
URL = "https://archive.ics.uci.edu/ml/machine-learning-databases/adult/adult.data" Col_Names = [age,workclass,fnlwgt,education,education-num,marital-status,occupation,relationship,race,sex,capital-loss,hours-per-week,native-country,Income]
Data = pd.read_csv(URL,header=None) Data.columns = Col_Names Data
数据集属性信息
数据集包含以下属性:
- age
- workclass
- fnlwgt
- education
- education-num
- marital-status
- occupation
- relationship
- race
- sex
- capital-loss
- hours-per-week
- native-country
- Income
数据集获取步骤
- 访问UCI Machine Learning Repository
- 选择数据集
- 复制数据URL
- 复制属性信息

- UCI Machine Learning Repository首次发表,由加州大学欧文分校(UCI)的David Aha和其同事创建,旨在为机器学习研究提供一个公共数据集资源。
- 数据集数量显著增加,涵盖了多个领域,包括分类、回归和聚类等,成为学术界和工业界广泛使用的资源。
- UCI Machine Learning Repository开始提供在线访问和下载服务,进一步促进了其在全球范围内的使用和影响力。
- 数据集的质量和多样性进一步提升,新增了大量高质量的数据集,涵盖了更多新兴领域和应用场景。
- UCI Machine Learning Repository继续扩展,数据集数量超过500个,成为全球最受欢迎和广泛使用的机器学习数据集资源之一。
AISHELL/AISHELL-1
Aishell是一个开源的中文普通话语音语料库,由北京壳壳科技有限公司发布。数据集包含了来自中国不同口音地区的400人的录音,录音在安静的室内环境中使用高保真麦克风进行,并下采样至16kHz。通过专业的语音标注和严格的质量检查,手动转录的准确率超过95%。该数据集免费供学术使用,旨在为语音识别领域的新研究人员提供适量的数据。
hugging_face 收录
LUNA16
LUNA16(肺结节分析)数据集是用于肺分割的数据集。它由 1,186 个肺结节组成,在 888 次 CT 扫描中进行了注释。
OpenDataLab 收录
Office-31, Office-Home, VisDA-2017, DomainNet
Office-31是一个包含31个类别的办公用品图像数据集,Office-Home包含65个类别的日常用品图像数据集,VisDA-2017是一个用于视觉领域自适应挑战的数据集,DomainNet是一个大规模的多领域图像数据集。
github 收录
UniProt
UniProt(Universal Protein Resource)是全球公认的蛋白质序列与功能信息权威数据库,由欧洲生物信息学研究所(EBI)、瑞士生物信息学研究所(SIB)和美国蛋白质信息资源中心(PIR)联合运营。该数据库以其广度和深度兼备的蛋白质信息资源闻名,整合了实验验证的高质量数据与大规模预测的自动注释内容,涵盖从分子序列、结构到功能的全面信息。UniProt核心包括注释详尽的UniProtKB知识库(分为人工校验的Swiss-Prot和自动生成的TrEMBL),以及支持高效序列聚类分析的UniRef和全局蛋白质序列归档的UniParc。其卓越的数据质量和多样化的检索工具,为基础研究和药物研发提供了无可替代的支持,成为生物学研究中不可或缺的资源。
www.uniprot.org 收录
红外谱图数据库
收集整理红外谱图实验手册等数据,建成了红外谱图数据库。本数据库收录了常见化合物的红外谱图。主要包括化合物数据和对应的红外谱图数据。其中,原始红外谱图都进行了数字化处理,从而使谱峰检索成为可能。用户可以在数据库中检索指定化合物的谱图,也可以提交谱图/谱峰数据,以检索与之相似的谱图数据,以协助进行谱图鉴定。
国家基础学科公共科学数据中心 收录