awesome-public-datasets
收藏github2021-07-24 更新2024-05-31 收录
下载链接:
https://github.com/cynduja/awesome-public-datasets
下载链接
链接失效反馈官方服务:
资源简介:
这是一个包含互联网上大规模公共数据集的精彩列表,数据集来自博客、答案和用户响应的整理。
This is an impressive compilation of large-scale public datasets from the internet, curated from blogs, answers, and user responses.
创建时间:
2016-05-09
原始信息汇总
数据集概述
本数据集详情页面提供了多个领域的公共数据源列表,涵盖了农业、生物学、气候/天气、复杂网络、计算机网络、数据挑战、经济学、能源、金融、地理信息系统、政府、医疗保健、图像处理、机器学习、博物馆、自然语言、物理、公共领域、搜索引擎、社会科学、体育、时间序列和交通运输等多个领域。以下是各领域数据集的概要信息:
农业
- U.S. Department of Agricultures PLANTS Database: 提供美国农业部的植物数据库。
生物学
- 1000 Genomes: 基因组数据集。
- Collaborative Research in Computational Neuroscience (CRCNS): 计算神经科学合作研究数据集。
- Gene Expression Omnibus (GEO): 基因表达数据库。
- Human Microbiome Project (HMP): 人类微生物组项目数据。
- MIT Cancer Genomics Data: 麻省理工学院癌症基因组数据。
- Protein Data Bank: 蛋白质数据库。
- PubChem Project: 公共化学数据库。
- Stanford Microarray Data: 斯坦福微阵列数据。
- The Personal Genome Project: 个人基因组项目数据。
气候/天气
- Australian Weather: 澳大利亚天气数据。
- Canadian Meteorological Centre: 加拿大气象中心数据。
- NASA Global Imagery Browse Services: 美国宇航局全球图像浏览服务。
- NOAA Climate Datasets: 美国国家海洋和大气管理局气候数据集。
复杂网络
- CrossRef DOI URLs: 参考链接数据集。
- DBLP Citation dataset: DBLP引用数据集。
- NIST complex networks data collection: 美国国家标准与技术研究院复杂网络数据集。
- Stanford Large Network Dataset Collection: 斯坦福大学大型网络数据集。
计算机网络
- 3.5B Web Pages from CommonCraw 2012: 2012年CommonCraw收集的35亿网页数据。
- CRAWDAD Wireless datasets from Dartmouth Univ.: 达特茅斯大学无线数据集。
数据挑战
- Kaggle Competition Data: Kaggle竞赛数据。
- Netflix Prize: Netflix大奖赛数据。
经济学
- American Economic Ass (AEA): 美国经济协会数据。
- EconData from UMD: 马里兰大学经济数据。
能源
- AMPds: 能源使用数据集。
- BLUEd: 建筑能源数据集。
- Dataport: 能源数据港。
金融
- CBOE Futures Exchange: 芝加哥期权交易所期货数据。
- Google Finance: 谷歌财经数据。
- NASDAQ: 纳斯达克数据。
地理信息系统
- BODC - marine data of ~22K vars: 英国海洋数据中心数据。
- Cambridge, MA, US, GIS data on GitHub: 剑桥市GIS数据。
- EOSDIS - NASAs earth observing system data: 美国宇航局地球观测系统数据。
政府
- Australia (abs.gov.au): 澳大利亚统计局数据。
- Australia (data.gov.au): 澳大利亚政府数据。
- Canada: 加拿大政府数据。
医疗保健
- EHDP Large Health Data Sets: EHDP大型健康数据集。
- Gapminder World, demographic databases: Gapminder世界人口数据库。
- Medicare Coverage Database (MCD), U.S.: 美国医疗保险覆盖数据库。
图像处理
- 10k US Adult Faces Database: 10000美国成人面部数据库。
- ImageNet (in WordNet hierarchy): ImageNet数据集。
- SUN database, MIT: 麻省理工学院SUN数据库。
机器学习
- Delve Datasets for classification and regression (Univ. of Toronto): 多伦多大学分类和回归数据集。
- Discogs Monthly Data: Discogs每月数据。
- IMDb Database: IMDb数据库。
- Lending Club Loan Data: Lending Club贷款数据。
博物馆
- Cooper-Hewitts Collection Database: 库珀-休伊特博物馆藏品数据库。
- Minneapolis Institute of Arts metadata: 明尼阿波利斯艺术学院元数据。
- Tate Collection metadata: 泰特收藏元数据。
自然语言
- Blogger Corpus: 博客语料库。
- ClueWeb09 FACC: ClueWeb09 FACC数据集。
- DBpedia - 4.58M things with 583M facts: DBpedia数据集。
- Google Books Ngrams (2.2TB): 谷歌图书N-gram数据集。
物理
- CERN Open Data Portal: 欧洲核子研究组织开放数据门户。
- NSSDC (NASA) data of 550 space spacecraft: 美国宇航局国家空间科学数据中心数据。
公共领域
- Amazon: 亚马逊数据集。
- Archive.org Datasets: 互联网档案馆数据集。
- CMU JASA data archive: 卡内基梅隆大学JASA数据档案。
搜索引擎
- Academic Torrents of data sharing from UMB: 学术数据共享的学术洪流。
- Archive-it from Internet Archive: 互联网档案馆的Archive-it服务。
- Datahub.io: 数据集市。
社会科学
- Ancestry.com Forum Dataset over 10 years: 祖先论坛十年数据集。
- CMU Enron Email of 150 users: 卡内基梅隆大学安然电子邮件数据集。
- Facebook Data Scrape (2005): 2005年Facebook数据抓取。
- Facebook Social Networks from LAW (since 2007): 2007年以来LAW的Facebook社交网络数据。
体育
- Betfair Historical Exchange Data: Betfair历史交换数据。
- Cricsheet Matches (baseball): Cricsheet棒球比赛数据。
- Ergast Formula 1, from 1950 up to date (API): Ergast一级方程式赛车API数据。
时间序列
- Time Series Data Library (TSDL) from MU: 密歇根大学时间序列数据图书馆。
- UC Riverside Time Series Dataset: 加州大学河滨分校时间序列数据集。
交通运输
- Airlines OD Data 1987-2008: 1987至2008年航空公司OD数据。
以上数据集覆盖了从基础科学研究到应用技术开发的广泛领域,为研究人员和开发者提供了丰富的资源。
搜集汇总
数据集介绍

构建方式
该数据集通过整合来自博客、问答平台及用户反馈的公开数据源构建而成,涵盖了多个领域的免费及部分付费数据集。其构建过程注重数据的多样性与广泛性,确保涵盖农业、生物学、气候、复杂网络、计算机网络等多个学科领域。数据来源经过筛选与整理,旨在为研究人员提供高质量、易于访问的公共数据集。
特点
该数据集的特点在于其广泛的数据覆盖范围与多学科交叉性。数据集不仅包含生物学、气候、计算机科学等传统领域的数据,还涵盖了经济学、能源、金融等应用性较强的领域。此外,数据集中的部分数据源为实时更新,能够为研究者提供最新的数据支持。数据集的结构清晰,分类明确,便于用户快速定位所需数据。
使用方法
用户可通过访问GitHub页面获取数据集的详细列表,并根据分类导航至所需领域的数据源链接。每个数据源均附有简要说明及访问方式,用户可根据需求选择免费或付费数据集。对于研究人员而言,该数据集可作为数据挖掘、机器学习、统计分析等研究的基础数据来源。此外,数据集还可用于教学与培训,帮助学生理解不同领域的数据特点与应用场景。
背景与挑战
背景概述
Awesome Public Datasets 是一个广泛收集和整理公共数据源的资源库,涵盖了从农业、生物学到气候、复杂网络等多个领域的数据集。该数据集由GitHub用户caesar0301于2013年创建,旨在为研究人员、数据科学家和开发者提供一个便捷的公共数据访问平台。其数据来源多样,包括博客、用户反馈以及各类公开数据库。Awesome Public Datasets不仅为学术界提供了丰富的研究素材,也为工业界的数据驱动决策提供了支持。该数据集的影响力广泛,尤其在推动开放数据和数据共享文化方面发挥了重要作用。
当前挑战
Awesome Public Datasets面临的主要挑战包括数据集的多样性与质量不一致问题。由于数据来源广泛,部分数据集可能存在格式不统一、数据缺失或更新不及时的情况,这为数据预处理和分析带来了额外的复杂性。此外,尽管大多数数据集是免费的,但部分数据集可能涉及版权或使用限制,用户在使用时需谨慎处理。另一个挑战是数据集的维护与更新,随着数据源的不断变化,保持数据集的最新状态需要持续的努力和资源投入。最后,数据集的分类和组织方式虽然较为全面,但在面对特定领域的研究需求时,用户可能需要花费更多时间筛选和验证数据的适用性。
常用场景
经典使用场景
awesome-public-datasets数据集广泛应用于多个领域的研究和开发中,尤其是在数据科学、机器学习和人工智能领域。研究人员和开发者可以通过该数据集快速获取大量公开数据,用于模型训练、算法验证和数据分析。例如,在自然语言处理领域,Google Books Ngrams和Wikipedia Links数据被广泛用于语言模型的训练和评估。
解决学术问题
该数据集解决了学术研究中数据获取困难的问题,尤其是在跨学科研究中,研究者往往需要从多个来源整合数据。awesome-public-datasets提供了一个集中的平台,涵盖了从生物学到社会科学的广泛领域,极大地简化了数据获取的流程。例如,1000 Genomes项目的数据为基因组学研究提供了宝贵的资源,而Stanford Large Network Dataset Collection则为复杂网络分析提供了丰富的数据支持。
衍生相关工作
awesome-public-datasets的广泛使用催生了许多经典的研究工作。例如,基于ImageNet数据集的研究推动了计算机视觉领域的快速发展,许多图像分类和物体检测算法都在此基础上得到了验证和优化。此外,基于UCI Machine Learning Repository的研究工作也在机器学习领域产生了深远影响,许多经典的分类和回归算法都通过该数据集进行了验证和改进。
以上内容由遇见数据集搜集并总结生成



