five

awesome-public-datasets

收藏
github2021-07-24 更新2024-05-31 收录
下载链接:
https://github.com/cynduja/awesome-public-datasets
下载链接
链接失效反馈
官方服务:
资源简介:
这是一个包含互联网上大规模公共数据集的精彩列表,数据集来自博客、答案和用户响应的整理。

This is an impressive compilation of large-scale public datasets from the internet, curated from blogs, answers, and user responses.
创建时间:
2016-05-09
原始信息汇总

数据集概述

本数据集详情页面提供了多个领域的公共数据源列表,涵盖了农业、生物学、气候/天气、复杂网络、计算机网络、数据挑战、经济学、能源、金融、地理信息系统、政府、医疗保健、图像处理、机器学习、博物馆、自然语言、物理、公共领域、搜索引擎、社会科学、体育、时间序列和交通运输等多个领域。以下是各领域数据集的概要信息:

农业

  • U.S. Department of Agricultures PLANTS Database: 提供美国农业部的植物数据库。

生物学

  • 1000 Genomes: 基因组数据集。
  • Collaborative Research in Computational Neuroscience (CRCNS): 计算神经科学合作研究数据集。
  • Gene Expression Omnibus (GEO): 基因表达数据库。
  • Human Microbiome Project (HMP): 人类微生物组项目数据。
  • MIT Cancer Genomics Data: 麻省理工学院癌症基因组数据。
  • Protein Data Bank: 蛋白质数据库。
  • PubChem Project: 公共化学数据库。
  • Stanford Microarray Data: 斯坦福微阵列数据。
  • The Personal Genome Project: 个人基因组项目数据。

气候/天气

  • Australian Weather: 澳大利亚天气数据。
  • Canadian Meteorological Centre: 加拿大气象中心数据。
  • NASA Global Imagery Browse Services: 美国宇航局全球图像浏览服务。
  • NOAA Climate Datasets: 美国国家海洋和大气管理局气候数据集。

复杂网络

  • CrossRef DOI URLs: 参考链接数据集。
  • DBLP Citation dataset: DBLP引用数据集。
  • NIST complex networks data collection: 美国国家标准与技术研究院复杂网络数据集。
  • Stanford Large Network Dataset Collection: 斯坦福大学大型网络数据集。

计算机网络

  • 3.5B Web Pages from CommonCraw 2012: 2012年CommonCraw收集的35亿网页数据。
  • CRAWDAD Wireless datasets from Dartmouth Univ.: 达特茅斯大学无线数据集。

数据挑战

  • Kaggle Competition Data: Kaggle竞赛数据。
  • Netflix Prize: Netflix大奖赛数据。

经济学

  • American Economic Ass (AEA): 美国经济协会数据。
  • EconData from UMD: 马里兰大学经济数据。

能源

  • AMPds: 能源使用数据集。
  • BLUEd: 建筑能源数据集。
  • Dataport: 能源数据港。

金融

  • CBOE Futures Exchange: 芝加哥期权交易所期货数据。
  • Google Finance: 谷歌财经数据。
  • NASDAQ: 纳斯达克数据。

地理信息系统

  • BODC - marine data of ~22K vars: 英国海洋数据中心数据。
  • Cambridge, MA, US, GIS data on GitHub: 剑桥市GIS数据。
  • EOSDIS - NASAs earth observing system data: 美国宇航局地球观测系统数据。

政府

  • Australia (abs.gov.au): 澳大利亚统计局数据。
  • Australia (data.gov.au): 澳大利亚政府数据。
  • Canada: 加拿大政府数据。

医疗保健

  • EHDP Large Health Data Sets: EHDP大型健康数据集。
  • Gapminder World, demographic databases: Gapminder世界人口数据库。
  • Medicare Coverage Database (MCD), U.S.: 美国医疗保险覆盖数据库。

图像处理

  • 10k US Adult Faces Database: 10000美国成人面部数据库。
  • ImageNet (in WordNet hierarchy): ImageNet数据集。
  • SUN database, MIT: 麻省理工学院SUN数据库。

机器学习

  • Delve Datasets for classification and regression (Univ. of Toronto): 多伦多大学分类和回归数据集。
  • Discogs Monthly Data: Discogs每月数据。
  • IMDb Database: IMDb数据库。
  • Lending Club Loan Data: Lending Club贷款数据。

博物馆

  • Cooper-Hewitts Collection Database: 库珀-休伊特博物馆藏品数据库。
  • Minneapolis Institute of Arts metadata: 明尼阿波利斯艺术学院元数据。
  • Tate Collection metadata: 泰特收藏元数据。

自然语言

  • Blogger Corpus: 博客语料库。
  • ClueWeb09 FACC: ClueWeb09 FACC数据集。
  • DBpedia - 4.58M things with 583M facts: DBpedia数据集。
  • Google Books Ngrams (2.2TB): 谷歌图书N-gram数据集。

物理

  • CERN Open Data Portal: 欧洲核子研究组织开放数据门户。
  • NSSDC (NASA) data of 550 space spacecraft: 美国宇航局国家空间科学数据中心数据。

公共领域

  • Amazon: 亚马逊数据集。
  • Archive.org Datasets: 互联网档案馆数据集。
  • CMU JASA data archive: 卡内基梅隆大学JASA数据档案。

搜索引擎

  • Academic Torrents of data sharing from UMB: 学术数据共享的学术洪流。
  • Archive-it from Internet Archive: 互联网档案馆的Archive-it服务。
  • Datahub.io: 数据集市。

社会科学

  • Ancestry.com Forum Dataset over 10 years: 祖先论坛十年数据集。
  • CMU Enron Email of 150 users: 卡内基梅隆大学安然电子邮件数据集。
  • Facebook Data Scrape (2005): 2005年Facebook数据抓取。
  • Facebook Social Networks from LAW (since 2007): 2007年以来LAW的Facebook社交网络数据。

体育

  • Betfair Historical Exchange Data: Betfair历史交换数据。
  • Cricsheet Matches (baseball): Cricsheet棒球比赛数据。
  • Ergast Formula 1, from 1950 up to date (API): Ergast一级方程式赛车API数据。

时间序列

  • Time Series Data Library (TSDL) from MU: 密歇根大学时间序列数据图书馆。
  • UC Riverside Time Series Dataset: 加州大学河滨分校时间序列数据集。

交通运输

  • Airlines OD Data 1987-2008: 1987至2008年航空公司OD数据。

以上数据集覆盖了从基础科学研究到应用技术开发的广泛领域,为研究人员和开发者提供了丰富的资源。

搜集汇总
数据集介绍
main_image_url
构建方式
该数据集通过整合来自博客、问答平台及用户反馈的公开数据源构建而成,涵盖了多个领域的免费及部分付费数据集。其构建过程注重数据的多样性与广泛性,确保涵盖农业、生物学、气候、复杂网络、计算机网络等多个学科领域。数据来源经过筛选与整理,旨在为研究人员提供高质量、易于访问的公共数据集。
特点
该数据集的特点在于其广泛的数据覆盖范围与多学科交叉性。数据集不仅包含生物学、气候、计算机科学等传统领域的数据,还涵盖了经济学、能源、金融等应用性较强的领域。此外,数据集中的部分数据源为实时更新,能够为研究者提供最新的数据支持。数据集的结构清晰,分类明确,便于用户快速定位所需数据。
使用方法
用户可通过访问GitHub页面获取数据集的详细列表,并根据分类导航至所需领域的数据源链接。每个数据源均附有简要说明及访问方式,用户可根据需求选择免费或付费数据集。对于研究人员而言,该数据集可作为数据挖掘、机器学习、统计分析等研究的基础数据来源。此外,数据集还可用于教学与培训,帮助学生理解不同领域的数据特点与应用场景。
背景与挑战
背景概述
Awesome Public Datasets 是一个广泛收集和整理公共数据源的资源库,涵盖了从农业、生物学到气候、复杂网络等多个领域的数据集。该数据集由GitHub用户caesar0301于2013年创建,旨在为研究人员、数据科学家和开发者提供一个便捷的公共数据访问平台。其数据来源多样,包括博客、用户反馈以及各类公开数据库。Awesome Public Datasets不仅为学术界提供了丰富的研究素材,也为工业界的数据驱动决策提供了支持。该数据集的影响力广泛,尤其在推动开放数据和数据共享文化方面发挥了重要作用。
当前挑战
Awesome Public Datasets面临的主要挑战包括数据集的多样性与质量不一致问题。由于数据来源广泛,部分数据集可能存在格式不统一、数据缺失或更新不及时的情况,这为数据预处理和分析带来了额外的复杂性。此外,尽管大多数数据集是免费的,但部分数据集可能涉及版权或使用限制,用户在使用时需谨慎处理。另一个挑战是数据集的维护与更新,随着数据源的不断变化,保持数据集的最新状态需要持续的努力和资源投入。最后,数据集的分类和组织方式虽然较为全面,但在面对特定领域的研究需求时,用户可能需要花费更多时间筛选和验证数据的适用性。
常用场景
经典使用场景
awesome-public-datasets数据集广泛应用于多个领域的研究和开发中,尤其是在数据科学、机器学习和人工智能领域。研究人员和开发者可以通过该数据集快速获取大量公开数据,用于模型训练、算法验证和数据分析。例如,在自然语言处理领域,Google Books Ngrams和Wikipedia Links数据被广泛用于语言模型的训练和评估。
解决学术问题
该数据集解决了学术研究中数据获取困难的问题,尤其是在跨学科研究中,研究者往往需要从多个来源整合数据。awesome-public-datasets提供了一个集中的平台,涵盖了从生物学到社会科学的广泛领域,极大地简化了数据获取的流程。例如,1000 Genomes项目的数据为基因组学研究提供了宝贵的资源,而Stanford Large Network Dataset Collection则为复杂网络分析提供了丰富的数据支持。
衍生相关工作
awesome-public-datasets的广泛使用催生了许多经典的研究工作。例如,基于ImageNet数据集的研究推动了计算机视觉领域的快速发展,许多图像分类和物体检测算法都在此基础上得到了验证和优化。此外,基于UCI Machine Learning Repository的研究工作也在机器学习领域产生了深远影响,许多经典的分类和回归算法都通过该数据集进行了验证和改进。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作