awesome-public-datasets
收藏github2022-06-06 更新2024-05-31 收录
下载链接:
https://github.com/wjpeters/awesome-public-datasets
下载链接
链接失效反馈官方服务:
资源简介:
一个包含高质量公开数据集的列表,这些数据集来自公共领域,持续更新中。
A list of high-quality open datasets sourced from the public domain, continuously updated.
创建时间:
2017-08-17
原始信息汇总
数据集概述
农业
- U.S. Department of Agricultures PLANTS Database
URL: http://www.plants.usda.gov/dl_all.html
生物学
- 1000 Genomes
URL: http://www.1000genomes.org/data - American Gut (Microbiome Project)
URL: https://github.com/biocore/American-Gut - Broad Cancer Cell Line Encyclopedia (CCLE)
URL: http://www.broadinstitute.org/ccle/home - Broad Bioimage Benchmark Collection (BBBC)
URL: https://www.broadinstitute.org/bbbc - Cell Image Library
URL: http://www.cellimagelibrary.org - Complete Genomics Public Data
URL: http://www.completegenomics.com/public-data/69-genomes/ - EBI ArrayExpress
URL: http://www.ebi.ac.uk/arrayexpress/ - EBI Protein Data Bank in Europe
URL: http://www.ebi.ac.uk/pdbe/emdb/index.html/ - Electron Microscopy Pilot Image Archive (EMPIAR)
URL: http://www.ebi.ac.uk/pdbe/emdb/empiar/ - ENCODE project
URL: https://www.encodeproject.org - Ensembl Genomes
URL: http://ensemblgenomes.org/info/genomes - Gene Expression Omnibus (GEO)
URL: http://www.ncbi.nlm.nih.gov/geo/ - Gene Ontology (GO)
URL: http://geneontology.org/page/download-annotations - Global Biotic Interactions (GloBI)
URL: https://github.com/jhpoelen/eol-globi-data/wiki#accessing-species-interaction-data - Harvard Medical School (HMS) LINCS Project
URL: http://lincs.hms.harvard.edu - Human Genome Diversity Project
URL: http://www.hagsc.org/hgdp/files.html - Human Microbiome Project (HMP)
URL: http://www.hmpdacc.org/reference_genomes/reference_genomes.php - ICOS PSP Benchmark
URL: http://ico2s.org/datasets/psp_benchmark.html - International HapMap Project
URL: http://hapmap.ncbi.nlm.nih.gov/downloads/index.html.en - Journal of Cell Biology DataViewer
URL: http://jcb-dataviewer.rupress.org - MIT Cancer Genomics Data
URL: http://www.broadinstitute.org/cgi-bin/cancer/datasets.cgi - NCBI Proteins
URL: http://www.ncbi.nlm.nih.gov/guide/proteins/#databases - NCBI Taxonomy
URL: http://www.ncbi.nlm.nih.gov/taxonomy - NIH Microarray data
URL: http://bit.do/VVW6 or FTP (see FTP link on RAW) - OpenSNP genotypes data
URL: https://opensnp.org/ - Pathguid - Protein-Protein Interactions Catalog
URL: http://www.pathguide.org/ - Protein Data Bank
URL: http://www.rcsb.org/ - Psychiatric Genomics Consortium
URL: https://www.med.unc.edu/pgc/downloads - PubChem Project
URL: https://pubchem.ncbi.nlm.nih.gov/ - PubGene (now Coremine Medical)
URL: http://www.pubgene.org/ - Sanger Catalogue of Somatic Mutations in Cancer (COSMIC)
URL: http://cancer.sanger.ac.uk/cosmic - Sanger Genomics of Drug Sensitivity in Cancer Project (GDSC)
URL: http://www.cancerrxgene.org/ - Sequence Read Archive(SRA)
URL: http://www.ncbi.nlm.nih.gov/Traces/sra/ - Stanford Microarray Data
URL: http://smd.stanford.edu/ - Stowers Institute Original Data Repository
URL: http://www.stowers.org/research/publications/odr - Systems Science of Biological Dynamics (SSBD) Database
URL: http://ssbd.qbic.riken.jp - The Cancer Genome Atlas (TCGA), available via Broad GDAC
URL: https://gdac.broadinstitute.org/ - The Catalogue of Life
URL: http://www.catalogueoflife.org/content/annual-checklist-archive - The Personal Genome Project
URL: http://www.personalgenomes.org/ or PGP - UCSC Public Data
URL: http://hgdownload.soe.ucsc.edu/downloads.html - Universal Protein Resource (UnitProt)
URL: http://www.uniprot.org/downloads - UniGene
URL: http://www.ncbi.nlm.nih.gov/unigene
气候/天气
- Australian Weather
URL: http://www.bom.gov.au/climate/dwo/ - Aviation Weather Center - Consistent, timely and accurate weather information for the world airspace system
URL: https://aviationweather.gov/adds/dataserver - Brazilian Weather - Historical data (In Portuguese)
URL: http://sinda.crn2.inpe.br/PCD/SITE/novo/site/ - Canadian Meteorological Centre
URL: http://weather.gc.ca/grib/index_e.html - Climate Data from UEA (updated monthly)
URL: https://crudata.uea.ac.uk/cru/data/temperature/#datter and ftp://ftp.cmdl.noaa.gov/ - European Climate Assessment & Dataset
URL: http://eca.knmi.nl/ - Global Climate Data Since 1929
URL: http://en.tutiempo.net/climate - NASA Global Imagery Browse Services
URL: https://wiki.earthdata.nasa.gov/display/GIBS - NOAA Bering Sea Climate
URL: http://www.beringclimate.noaa.gov/ - NOAA Climate Datasets
URL: http://www.ncdc.noaa.gov/data-access/quick-links - NOAA Realtime Weather Models
URL: http://www.ncdc.noaa.gov/data-access/model-data/model-datasets/numerical-weather-prediction - The World Bank Open Data Resources for Climate Change
URL: http://data.worldbank.org/developers/climate-data-api - UEA Climatic Research Unit
URL: http://www.cru.uea.ac.uk/data - WorldClim - Global Climate Data
URL: http://www.worldclim.org - WU Historical Weather Worldwide
URL: https://www.wunderground.com/history/index.html
复杂网络
- AMiner Citation Network Dataset
URL: http://aminer.org/citation - CrossRef DOI URLs
URL: https://archive.org/details/doi-urls - DBLP Citation dataset
URL: https://kdl.cs.umass.edu/display/public/DBLP - NBER Patent Citations
URL: http://nber.org/patents/ - Network Repository with Interactive Exploratory Analysis Tools
URL: http://networkrepository.com/ - NIST complex networks data collection
URL: http://math.nist.gov/~RPozo/complex_datasets.html - Protein-protein interaction network
URL: http://vlado.fmf.uni-lj.si/pub/networks/data/bio/Yeast/Yeast.htm - PyPI and Maven Dependency Network
URL: https://ogirardot.wordpress.com/2013/01/31/sharing-pypimaven-dependency-data/ - Scopus Citation Database
URL: https://www.elsevier.com/solutions/scopus - Small Network Data
URL: http://www-personal.umich.edu/~mejn/netdata/ - Stanford GraphBase (Steven Skiena)
URL: http://www3.cs.stonybrook.edu/~algorith/implement/graphbase/implement.shtml - Stanford Large Network Dataset Collection
URL: http://snap.stanford.edu/data/ - Stanford Longitudinal Network Data Sources
URL: http://stanford.edu/group/sonia/dataSources/index.html - The Koblenz Network Collection
URL: http://konect.uni-koblenz.de/ - The Laboratory for Web Algorithmics (UNIMI)
URL: http://law.di.unimi.it/datasets.php - The Nexus Network Repository
URL: http://nexus.igraph.org/ - UCI Network Data Repository
URL: https://networkdata.ics.uci.edu/resources.php - UFL sparse matrix collection
URL: http://www.cise.ufl.edu/research/sparse/matrices/ - WSU Graph Database
URL: http://www.eecs.wsu.edu/mgd/gdb.html - DIMACS Road Networks Collection
URL: http://www.dis.uniroma1.it/challenge9/download.shtml
计算机网络
- 3.5B Web Pages from CommonCraw 2012
URL: http://www.bigdatanews.com/profiles/blogs/big-data-set-3-5-billion-web-pages-made-available-for-all-of-us - **53.5B Web clicks of 1
搜集汇总
数据集介绍

构建方式
Awesome Public Datasets 是一个广泛收集和整理公共数据源的资源库,涵盖了多个领域的开放数据集。该数据集的构建方式主要依赖于从博客、问答平台以及用户反馈中收集和整理数据源链接。数据集的内容经过精心筛选和分类,确保每个数据源的可靠性和实用性。尽管大多数数据集是免费的,但部分数据集可能需要付费或特殊权限才能访问。
特点
该数据集的特点在于其广泛的覆盖范围和多样化的数据源。数据集涵盖了从农业、生物学、气候、复杂网络、计算机网络到经济学、教育、能源、金融等多个领域的数据。每个领域下的数据源都经过详细的分类和标注,便于用户快速找到所需的数据。此外,数据集还提供了丰富的外部链接,用户可以直接访问原始数据源,获取最新的数据更新。
使用方法
使用 Awesome Public Datasets 时,用户可以通过浏览数据集的不同分类,快速定位到感兴趣的领域。每个分类下都列出了相关的数据源链接,用户可以直接点击链接访问原始数据。对于需要进一步处理的数据,用户可以根据数据源提供的格式和说明进行下载和使用。此外,数据集还提供了与其他类似资源库的链接,用户可以通过这些链接进一步扩展数据搜索范围。
背景与挑战
背景概述
awesome-public-datasets 是一个广泛收集和整理公共数据源的资源库,涵盖了从农业、生物学到气候、经济等多个领域的数据集。该数据集由社区贡献者caesar0301于GitHub上创建并维护,旨在为研究人员、数据科学家和开发者提供一个便捷的公共数据资源入口。其核心研究问题在于如何高效地整合和分类来自不同领域的公开数据,以支持跨学科的研究与应用。自创建以来,该数据集已成为数据科学领域的重要参考资源,极大地促进了数据驱动研究的进展。
当前挑战
awesome-public-datasets 面临的主要挑战包括数据源的多样性与质量不一致问题。由于数据集来自不同的领域和机构,数据的格式、更新频率和可靠性差异较大,这为数据整合和使用带来了困难。此外,随着数据量的不断增加,如何有效地组织和维护这些数据集,确保其可用性和可访问性,也是一个持续的挑战。构建过程中,团队还需解决数据版权和许可问题,确保所有数据集的使用符合相关法律和政策要求。
常用场景
经典使用场景
awesome-public-datasets 数据集广泛应用于多个学科领域的研究中,尤其是在数据科学、机器学习和生物信息学等领域。研究人员可以通过该数据集快速获取高质量的公开数据,用于模型训练、算法验证和数据分析。例如,在生物信息学中,研究人员可以利用其中的基因组数据(如1000 Genomes)进行基因变异分析,推动个性化医疗的发展。
解决学术问题
该数据集解决了学术研究中数据获取难、数据质量参差不齐的问题。通过整合来自多个领域的公开数据,研究人员可以避免重复收集数据的繁琐过程,专注于数据分析和模型优化。例如,在气候研究中,NOAA Climate Datasets 提供了全球气候数据,帮助研究人员更好地理解气候变化趋势及其影响。
衍生相关工作
该数据集衍生了许多经典的研究工作。例如,基于 ImageNet 数据集,研究人员开发了深度卷积神经网络(CNN)模型,推动了计算机视觉领域的突破。此外,Million Song Dataset 被广泛用于音乐推荐系统的研究,促进了音乐信息检索技术的发展。这些衍生工作不仅推动了学术研究的进步,也为实际应用提供了技术支持。
以上内容由遇见数据集搜集并总结生成



