five

Awesome Public Datasets

收藏
github2016-12-18 更新2024-05-31 收录
下载链接:
https://github.com/prabhjotSL/awesome-public-datasets
下载链接
链接失效反馈
官方服务:
资源简介:
这是一个包含多个领域高质量公开数据集的列表,数据集来源广泛,涵盖农业、生物学、气候/天气等多个领域。

This is a list of high-quality public datasets spanning multiple domains, with sources covering a wide range of fields including agriculture, biology, climate/weather, and more.
创建时间:
2015-10-09
原始信息汇总

数据集概述

本数据集详情页面提供了广泛的公共数据源列表,涵盖多个领域,包括但不限于农业、生物学、气候/天气、复杂网络、计算机网络、数据挑战、经济学、能源、金融、地质、地理信息系统、政府、医疗保健、图像处理、机器学习、博物馆、自然语言、物理、心理学/认知、公共领域、搜索引擎等。以下是各领域数据集的简要概述:

农业

  • U.S. Department of Agricultures PLANTS Database: 提供美国农业部的植物数据库。

生物学

  • 1000 Genomes: 提供人类基因组数据。
  • American Gut (Microbiome Project): 美国肠道项目,研究人类肠道微生物。
  • Collaborative Research in Computational Neuroscience (CRCNS): 计算神经科学合作研究数据集。
  • Gene Expression Omnibus (GEO): 基因表达数据库。
  • Human Microbiome Project (HMP): 人类微生物组项目数据。
  • MIT Cancer Genomics Data: 麻省理工学院癌症基因组数据。
  • Protein Data Bank: 蛋白质数据库。
  • PubChem Project: 公共化学数据库。

气候/天气

  • Australian Weather: 澳大利亚天气数据。
  • Canadian Meteorological Centre: 加拿大气象中心数据。
  • NASA Global Imagery Browse Services: NASA全球影像浏览服务。
  • NOAA Climate Datasets: 美国国家海洋和大气管理局气候数据集。

复杂网络

  • CrossRef DOI URLs: 学术出版物的DOI链接。
  • DBLP Citation dataset: 计算机科学文献引用数据集。
  • NIST complex networks data collection: 美国国家标准与技术研究院复杂网络数据集。

计算机网络

  • 3.5B Web Pages from CommonCraw 2012: 2012年CommonCrawl的35亿网页数据。
  • CAIDA Internet Datasets: 互联网数据分析合作组织的数据集。

数据挑战

  • Challenges in Machine Learning: 机器学习挑战数据集。
  • Kaggle Competition Data: Kaggle竞赛数据集。

经济学

  • American Economic Ass (AEA): 美国经济协会数据。
  • EconData from UMD: 马里兰大学经济数据。

能源

  • AMPds: 能源使用数据集。
  • EIA: 美国能源信息署数据。

金融

  • CBOE Futures Exchange: 芝加哥期权交易所期货数据。
  • NASDAQ: 纳斯达克数据。

地质

  • USGS Earthquake Archives: 美国地质调查局地震档案。

地理信息系统

  • GeoNames Worldwide: 全球地理名称数据库。
  • OpenStreetMap (OSM): 开放街道地图数据。

政府

  • Austin, TX, US: 奥斯汀市数据。
  • Australia (abs.gov.au): 澳大利亚统计局数据。
  • Canada: 加拿大政府数据。

医疗保健

  • EHDP Large Health Data Sets: 大型健康数据集。
  • Medicare Coverage Database (MCD), U.S.: 美国医疗保险覆盖数据库。

图像处理

  • 10k US Adult Faces Database: 美国成人面部数据库。
  • Stanford Dogs Dataset: 斯坦福犬类数据集。

机器学习

  • Delve Datasets for classification and regression (Univ. of Toronto): 多伦多大学分类和回归数据集。
  • IMDb Database: IMDb数据库。

博物馆

  • Cooper-Hewitts Collection Database: 库珀·休伊特博物馆收藏数据库。

自然语言

  • Blogger Corpus: 博客语料库。
  • DBpedia - 4.58M things with 583M facts: DBpedia数据集。

物理

  • CERN Open Data Portal: 欧洲核子研究组织开放数据门户。
  • NASA Exoplanet Archive: 美国宇航局系外行星档案。

心理学/认知

  • OSU Cognitive Modeling Repository Datasets: 俄亥俄州立大学认知建模数据集。

公共领域

  • Amazon: 亚马逊数据集。
  • Archive.org Datasets: 互联网档案馆数据集。

搜索引擎

  • Academic Torrents of data sharing from UMB: 马里兰大学巴尔的摩分校的数据共享学术磁力链接。

这些数据集为研究和开发提供了丰富的资源,适用于多种应用和研究领域。

搜集汇总
数据集介绍
main_image_url
构建方式
Awesome Public Datasets 是一个收集和整理自博客、回答和用户响应的公共数据集列表。该数据集的构建主要通过网络爬虫从多个来源抓取信息,并进行分类整理,以便用户能够方便地查找和访问。
特点
该数据集的特点在于其覆盖领域广泛,包括农业、生物学、气候/天气、复杂网络、计算机网络等多个领域。此外,它包含了大量免费的公共数据集,同时也收录了一些非免费的数据集。数据集的来源多样,既有政府机构发布的数据,也有科研机构和商业公司提供的资源。
使用方法
用户可以通过数据集的名称或关键词进行搜索,找到所需的数据集。每个数据集的条目都包含了链接,用户可以通过这些链接访问数据集的详细信息和下载页面。此外,一些数据集还提供了API接口,方便用户进行数据查询和获取。
背景与挑战
背景概述
Awesome Public Datasets是一个收集和整理自博客、回答和用户响应的公开数据集列表。该数据集由sindresorhus维护,旨在为研究者提供丰富的数据资源。数据集涵盖多个领域,包括农业、生物学、气候/天气、复杂网络、计算机网络、数据挑战、经济学、能源、金融、地质学、地理信息系统、政府、健康护理、图像处理、机器学习、博物馆、自然语言处理、物理学、心理学/认知科学以及公共领域等。该数据集的创建时间为2012年,主要研究人员为sindresorhus,其核心研究问题是收集和整理公开可用的数据集,对相关领域的影响力在于为研究者提供了便捷的数据获取途径。
当前挑战
数据集构建过程中遇到的挑战主要包括数据的收集和整理。由于数据集来源于多个不同的领域和来源,如何有效地整合和分类这些数据成为一个挑战。此外,保证数据的准确性和更新性也是一项持续的挑战。对于所解决的领域问题,例如在图像分类领域,如何从大量的图像数据中提取有效的特征并进行有效的分类,是研究者和数据集构建者需要面对的挑战。
常用场景
经典使用场景
Awesome Public Datasets是一个收集和整理公共数据集的列表,其经典使用场景主要在于为研究人员、数据科学家和开发者提供一个便捷的途径来访问和利用这些数据集。用户可以通过该平台发现并获取不同领域的高质量数据集,例如生物学、气象学、网络科学等,以支持他们的研究和项目开发。
解决学术问题
该数据集解决了学术研究中数据获取的难题,尤其是在数据集的发现、访问和整合方面。它为学术研究提供了丰富的数据资源,有助于推动科学研究的发展,解决实际问题,并促进跨学科的知识创新。
衍生相关工作
基于Awesome Public Datasets,已经衍生出了一系列相关的经典工作。例如,许多数据集被用于机器学习竞赛,促进了算法的创新和优化;同时,一些数据集也成为了学术研究中的标准数据源,被引用于众多研究论文中。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作