five

Awesome Public Datasets

收藏
github2021-04-01 更新2024-05-31 收录
下载链接:
https://github.com/kuhu12/awesome-public-datasets
下载链接
链接失效反馈
官方服务:
资源简介:
一个主题中心的高质量公开数据集列表,收集并整理自博客、答案和用户反馈。

A curated list of high-quality public datasets centered around specific themes, collected and organized from blogs, Q&A platforms, and user feedback.
创建时间:
2018-07-20
原始信息汇总

数据集概述

农业

  • U.S. Department of Agricultures Nutrient Database

    • 链接: https://www.ars.usda.gov/northeast-area/beltsville-md/beltsville-human-nutrition-research-center/nutrient-data-laboratory/docs/sr28-download-files/
    • 描述: 提供营养数据库。
  • U.S. Department of Agricultures PLANTS Database

    • 链接: http://www.plants.usda.gov/dl_all.html
    • 描述: 提供植物数据库。

生物学

  • 1000 Genomes

    • 链接: http://www.1000genomes.org/data
    • 描述: 提供基因组数据。
  • American Gut (Microbiome Project)

    • 链接: https://github.com/biocore/American-Gut
    • 描述: 提供微生物组项目数据。
  • Broad Bioimage Benchmark Collection (BBBC)

    • 链接: https://www.broadinstitute.org/bbbc
    • 描述: 提供生物图像基准数据。
  • Broad Cancer Cell Line Encyclopedia (CCLE)

    • 链接: http://www.broadinstitute.org/ccle/home
    • 描述: 提供癌症细胞系百科全书数据。
  • Cell Image Library

    • 链接: http://www.cellimagelibrary.org
    • 描述: 提供细胞图像库。
  • Complete Genomics Public Data

    • 链接: http://www.completegenomics.com/public-data/69-genomes/
    • 描述: 提供公共基因组数据。
  • EBI ArrayExpress

    • 链接: http://www.ebi.ac.uk/arrayexpress/
    • 描述: 提供ArrayExpress数据库。
  • EBI Protein Data Bank in Europe

    • 链接: http://www.ebi.ac.uk/pdbe/emdb/index.html/
    • 描述: 提供欧洲蛋白质数据库。
  • ENCODE project

    • 链接: https://www.encodeproject.org
    • 描述: 提供ENCODE项目数据。
  • Electron Microscopy Pilot Image Archive (EMPIAR)

    • 链接: http://www.ebi.ac.uk/pdbe/emdb/empiar/
    • 描述: 提供电子显微镜图像档案。
  • Ensembl Genomes

    • 链接: http://ensemblgenomes.org/info/genomes
    • 描述: 提供基因组信息。
  • Gene Expression Omnibus (GEO)

    • 链接: http://www.ncbi.nlm.nih.gov/geo/
    • 描述: 提供基因表达数据。
  • Gene Ontology (GO)

    • 链接: http://geneontology.org/page/download-annotations
    • 描述: 提供基因本体注释。
  • Global Biotic Interactions (GloBI)

    • 链接: https://github.com/jhpoelen/eol-globi-data/wiki#accessing-species-interaction-data
    • 描述: 提供物种相互作用数据。
  • Harvard Medical School (HMS) LINCS Project

    • 链接: http://lincs.hms.harvard.edu
    • 描述: 提供LINCS项目数据。
  • Human Genome Diversity Project

    • 链接: http://www.hagsc.org/hgdp/files.html
    • 描述: 提供人类基因组多样性项目数据。
  • Human Microbiome Project (HMP)

    • 链接: http://www.hmpdacc.org/reference_genomes/reference_genomes.php
    • 描述: 提供人类微生物组项目数据。
  • ICOS PSP Benchmark

    • 链接: http://ico2s.org/datasets/psp_benchmark.html
    • 描述: 提供PSP基准数据。
  • International HapMap Project

    • 链接: http://hapmap.ncbi.nlm.nih.gov/downloads/index.html.en
    • 描述: 提供HapMap项目数据。
  • Journal of Cell Biology DataViewer

    • 链接: http://jcb-dataviewer.rupress.org
    • 描述: 提供细胞生物学数据查看器。
  • KEGG

    • 链接: http://www.genome.jp/kegg/
    • 描述: 提供KEGG数据库资源。
  • MIT Cancer Genomics Data

    • 链接: http://www.broadinstitute.org/cgi-bin/cancer/datasets.cgi
    • 描述: 提供癌症基因组数据。
  • NCBI Proteins

    • 链接: http://www.ncbi.nlm.nih.gov/guide/proteins/#databases
    • 描述: 提供蛋白质数据库。
  • NCBI Taxonomy

    • 链接: http://www.ncbi.nlm.nih.gov/taxonomy
    • 描述: 提供分类学数据库。
  • NCI Genomic Data Commons

    • 链接: https://gdc-portal.nci.nih.gov
    • 描述: 提供基因组数据共享。
  • NIH Microarray data

    • 链接: http://bit.do/VVW6
    • 描述: 提供微阵列数据。
  • OpenSNP genotypes data

    • 链接: https://opensnp.org/
    • 描述: 提供基因型数据。
  • Pathguid - Protein-Protein Interactions Catalog

    • 链接: http://www.pathguide.org/
    • 描述: 提供蛋白质相互作用目录。
  • Protein Data Bank

    • 链接: http://www.rcsb.org/
    • 描述: 提供蛋白质数据库。
  • Psychiatric Genomics Consortium

    • 链接: https://www.med.unc.edu/pgc/downloads
    • 描述: 提供精神病基因组联盟数据。
  • PubChem Project

    • 链接: https://pubchem.ncbi.nlm.nih.gov/
    • 描述: 提供PubChem项目数据。
  • PubGene (now Coremine Medical)

    • 链接: http://www.pubgene.org/
    • 描述: 提供PubGene数据。
  • Sanger Catalogue of Somatic Mutations in Cancer (COSMIC)

    • 链接: http://cancer.sanger.ac.uk/cosmic
    • 描述: 提供COSMIC数据库。
  • Sanger Genomics of Drug Sensitivity in Cancer Project (GDSC)

    • 链接: http://www.cancerrxgene.org/
    • 描述: 提供药物敏感性项目数据。
  • Sequence Read Archive(SRA)

    • 链接: http://www.ncbi.nlm.nih.gov/Traces/sra/
    • 描述: 提供序列读取档案。
  • Stanford Microarray Data

    • 链接: http://smd.stanford.edu/
    • 描述: 提供微阵列数据。
  • Stowers Institute Original Data Repository

    • 链接: http://www.stowers.org/research/publications/odr
    • 描述: 提供原始数据存储库。
  • Systems Science of Biological Dynamics (SSBD) Database

    • 链接: http://ssbd.qbic.riken.jp
    • 描述: 提供生物动力学系统科学数据库。
  • The Cancer Genome Atlas (TCGA), available via Broad GDAC

    • 链接: https://gdac.broadinstitute.org/
    • 描述: 提供癌症基因组图谱数据。
  • The Catalogue of Life

    • 链接: http://www.catalogueoflife.org/content/annual-checklist-archive
    • 描述: 提供生命目录。
  • The Personal Genome Project

    • 链接: http://www.personalgenomes.org/
    • 描述: 提供个人基因组项目数据。
  • UCSC Public Data

    • 链接: http://hgdownload.soe.ucsc.edu/downloads.html
    • 描述: 提供公共数据。
  • UniGene

    • 链接: http://www.ncbi.nlm.nih.gov/unigene
    • 描述: 提供UniGene数据库。
  • Universal Protein Resource (UnitProt)

    • 链接: http://www.uniprot.org/downloads
    • 描述: 提供通用蛋白质资源。

气候+天气

  • Actuaries Climate Index

    • 链接: http://actuariesclimateindex.org/data/
    • 描述: 提供精算师气候指数数据。
  • Australian Weather

    • 链接: http://www.bom.gov.au/climate/dwo/
    • 描述: 提供澳大利亚天气数据。
  • Aviation Weather Center - Consistent, timely and accurate weather [...]

    • 链接: https://aviationweather.gov/adds/dataserver
    • 描述: 提供航空天气中心数据。
  • Brazilian Weather - Historical data (In Portuguese)

    • 链接: http://sinda.crn2.inpe.br/PCD/SITE/novo/site/
    • 描述: 提供巴西天气历史数据。
  • Canadian Meteorological Centre

    • 链接: http://weather.gc.ca/grib/index_e.html
    • 描述: 提供加拿大气象中心数据。
  • Climate Data from UEA (updated monthly)

    • 链接: https://crudata.uea.ac.uk/cru/data/temperature/
    • 描述: 提供UEA气候数据。
  • European Climate Assessment & Dataset

    • 链接: http://eca.knmi.nl/
    • 描述: 提供欧洲气候评估和数据集。
  • Global Climate Data Since 1929

    • 链接: http://en.tutiempo.net/climate
    • 描述: 提供全球气候数据。
  • NASA Global Imagery Browse Services

    • 链接: https://wiki.earthdata.nasa.gov/display/GIBS
    • 描述: 提供NASA全球图像浏览服务。
  • NOAA Bering Sea Climate

    • 链接: http://www.beringclimate.noaa.gov/
    • 描述: 提供白令海气候数据。
  • NOAA Climate Datasets

    • 链接: http://www.ncdc.noaa.gov/data-access/quick-links
    • 描述: 提供NOAA气候数据集。
  • NOAA Realtime Weather Models

    • 链接: http://www.ncdc.noaa.gov/data-access/model-data/model-datasets/numerical-weather-prediction
    • 描述: 提供NOAA实时天气模型数据。
  • NOAA SURFRAD Meteorology and Radiation Datasets

    • 链接: https://www.esrl.noaa.gov/gmd/grad/stardata.html
    • 描述: 提供SURFRAD气象和辐射数据集。
  • The World Bank Open Data Resources for Climate Change

    • 链接: http://data.worldbank.org/developers/climate-data-api
    • 描述: 提供世界银行气候变化开放数据资源。
  • UEA Climatic Research Unit

    • 链接: http://www.cru.uea.ac.uk/data
    • 描述: 提供UEA气候研究单位数据。
  • WU Historical Weather Worldwide

    • 链接: https://www.wunderground.com/history/index.html
    • 描述: 提供全球历史天气数据。
  • WorldClim - Global Climate Data

    • 链接: http://www.worldclim.org
    • 描述: 提供全球气候数据。

复杂网络

  • AMiner Citation Network Dataset

    • 链接: http://aminer.org/citation
    • 描述: 提供引用网络数据集。
  • CrossRef DOI URLs

    • 链接: https://archive.org/details/doi-urls
    • 描述: 提供CrossRef DOI URLS。
  • DBLP Citation dataset

    • 链接: https://kdl.cs.umass.edu/display/public/DBLP
    • 描述: 提供DBLP引用数据集。
  • DIMACS Road Networks Collection

    • 链接: http://www.dis.uniroma1.it/challenge9/download.shtml
    • 描述: 提供DIMACS道路网络收集。
  • NBER Patent Citations

    • 链接: http://nber.org/patents/
    • 描述: 提供NBER专利引用。
  • NIST complex networks data collection

    • 链接: http://math.nist.gov/~RPozo/complex_datasets.html
    • 描述: 提供NIST复杂网络数据收集。
  • Network Repository with Interactive Exploratory Analysis Tools

    • 链接: http://networkrepository.com/
    • 描述: 提供网络存储库和交互式探索分析工具。
  • Protein-protein interaction network

    • 链接: http://vlado.fmf.uni-lj.si/pub/networks/data/bio/Yeast/Yeast.htm
    • 描述: 提供蛋白质相互作用网络。
  • PyPI and Maven Dependency Network

    • 链接: https://ogirardot.wordpress.com/2013/01/31/sharing-pypimaven-dependency-data/
    • 描述: 提供PyPI和Maven依赖网络。
  • Scopus Citation Database

    • 链接: https://www.elsevier.com/solutions/scopus
    • 描述: 提供Scopus引用数据库。
  • Small Network Data

    • 链接: http://www-personal.umich.edu/~mejn/netdata/
    • 描述: 提供小型网络数据。
  • Stanford GraphBase

    • 链接: http://www3.cs.stonybrook.edu/~algorith/implement/graphbase/implement.shtml
    • 描述: 提供斯坦福图形库。
  • Stanford Large Network Dataset Collection

    • 链接: http://snap.stanford.edu/data/
    • 描述: 提供斯坦福大型网络数据集收集。
  • Stanford Longitudinal Network Data Sources

    • 链接: http://stanford.edu/group/sonia/dataSources/index.html
    • 描述: 提供斯坦福纵向网络数据源。
  • The Koblenz Network Collection

    • 链接: http://konect.uni-koblenz.de/
    • 描述: 提供Koblenz网络收集。
  • The Laboratory for Web Algorithmics (UNIMI)

    • 链接: http://law.di.unimi.it/datasets.php
    • 描述: 提供Web算法实验室数据。
  • The Nexus Network Repository

    • 链接: http://nexus.igraph.org/
    • 描述: 提供Nexus网络存储库。
  • UCI Network Data Repository

    • 链接: https://networkdata.ics.uci.edu/resources.php
    • 描述: 提供UCI网络数据存储库。
  • UFL sparse matrix collection

    • 链接: http://www.cise.ufl.edu/research/sparse/matrices/
    • 描述: 提供UFL稀疏矩阵收集。
  • WSU Graph Database

    • 链接: http://www.eecs.wsu.edu/mgd/gdb.html
    • 描述: 提供WSU图形数据库。

计算机网络

  • 3.5B Web Pages from CommonCrawl 2012

    • 链接: http://www.bigdatanews.com/profiles/blogs/big-data-set-3-5-billion-web-pages-made-available-for-all-of-us
    • 描述: 提供35亿网页数据。
  • 53.5B Web clicks of 100K users in Indiana Univ.

    • 链接: http://cnets.indiana.edu/groups/nan/webtraffic/click-dataset/
    • 描述: 提供535亿网络点击数据。
  • CAIDA Internet Datasets

    • 链接: http://www.caida.org/data/overview/
    • 描述: 提供CA
搜集汇总
数据集介绍
main_image_url
构建方式
Awesome Public Datasets 是一个高质量、主题导向的公共数据源集合,涵盖了多个学科领域。该数据集的构建方式主要依赖于从博客、问答平台和用户反馈中收集和整理数据。数据集的内容通过自动化工具 `apd-core` 生成,确保了数据的持续更新和维护。贡献者可以通过指定的方式提交新的数据集,而非直接修改主文件,从而保证了数据的一致性和可追溯性。
使用方法
用户可以通过访问 Awesome Public Datasets 的 GitHub 页面,浏览和下载所需的数据集。每个数据集都附有详细的描述和链接,用户可以根据自己的研究需求选择合适的资源。数据集的使用方法简单直观,用户只需点击相应的链接即可访问原始数据源。此外,数据集还提供了分类和标签功能,方便用户快速定位相关领域的数据。对于希望贡献新数据集的用户,可以通过 `apd-core` 提供的贡献指南提交新的数据源,确保数据集的持续扩展和更新。
背景与挑战
背景概述
Awesome Public Datasets 是一个由社区驱动的公共数据集集合,旨在为研究人员、数据科学家和开发者提供高质量、多样化的公开数据资源。该数据集由 awesomedata 组织维护,汇集了来自全球多个领域的公开数据集,涵盖农业、生物学、气候与天气、复杂网络、计算机网络、数据挑战、地球科学、经济学、教育、能源、金融和地理信息系统等多个领域。其创建时间可追溯至2010年代初期,随着数据科学和机器学习的兴起,该数据集逐渐成为学术界和工业界的重要参考资源。通过整合来自博客、用户反馈和公开数据源的信息,Awesome Public Datasets 为跨领域研究提供了丰富的数据支持,推动了数据驱动决策和科学研究的进展。
当前挑战
Awesome Public Datasets 面临的主要挑战包括数据集的多样性与质量控制的平衡。首先,由于数据集来源广泛,涵盖领域众多,如何确保数据的准确性和一致性成为一大难题。其次,部分数据集可能存在更新不及时或数据格式不统一的问题,这为数据预处理和分析带来了额外的复杂性。此外,尽管大多数数据集是免费的,但仍有部分数据集需要付费或受限于访问权限,这可能限制其广泛应用。最后,随着数据量的增长,如何高效管理和维护如此庞大的数据集集合,确保其持续更新和可用性,也是该数据集面临的重要挑战。
常用场景
经典使用场景
Awesome Public Datasets 是一个广泛收集高质量公共数据集的资源库,涵盖了从农业、生物学到气候、经济等多个领域。该数据集最经典的使用场景是作为研究人员和开发者在进行数据分析和机器学习项目时的参考资源。通过提供多样化的数据集,它帮助用户快速找到适合其研究需求的数据,从而加速项目的开发进程。
解决学术问题
Awesome Public Datasets 解决了学术研究中数据获取困难的问题。许多研究领域需要大量的数据支持,但数据的获取往往耗时且复杂。该数据集通过整合来自不同领域的公开数据,为研究人员提供了一个便捷的访问平台,极大地简化了数据收集的过程,使得研究者能够更专注于数据分析和模型构建。
实际应用
在实际应用中,Awesome Public Datasets 被广泛用于教育和企业环境中。教育机构可以利用这些数据集进行教学和科研项目,帮助学生和研究人员更好地理解数据分析的实际应用。企业则可以利用这些数据集进行市场分析、产品开发和决策支持,从而提升业务效率和竞争力。
数据集最近研究
最新研究方向
近年来,Awesome Public Datasets作为公共数据集的集合,广泛应用于多个领域的研究中。特别是在生物学、气候科学和复杂网络分析等领域,该数据集为研究者提供了丰富的数据资源。例如,在生物学领域,1000 Genomes和ENCODE项目的数据被广泛用于基因组学和表观遗传学的研究,推动了精准医学的发展。在气候科学领域,NASA和NOAA提供的气候数据为全球气候变化研究提供了重要支持,帮助科学家更好地理解气候变化的趋势和影响。此外,复杂网络分析领域的研究者利用AMiner Citation Network和Stanford Large Network Dataset Collection等数据集,深入探索社交网络、知识传播和生物网络的动态行为。这些研究不仅推动了相关领域的理论发展,也为实际应用提供了数据支持,具有重要的科学和社会意义。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作