Awesome Public Datasets
收藏数据集概述
农业
-
U.S. Department of Agricultures Nutrient Database
- 链接: https://www.ars.usda.gov/northeast-area/beltsville-md/beltsville-human-nutrition-research-center/nutrient-data-laboratory/docs/sr28-download-files/
- 描述: 提供营养数据。
-
U.S. Department of Agricultures PLANTS Database
- 链接: http://www.plants.usda.gov/dl_all.html
- 描述: 提供植物数据。
生物学
-
1000 Genomes
- 链接: http://www.1000genomes.org/data
- 描述: 提供基因组数据。
-
American Gut (Microbiome Project)
- 链接: https://github.com/biocore/American-Gut
- 描述: 提供微生物组数据。
-
Broad Bioimage Benchmark Collection (BBBC)
- 链接: https://www.broadinstitute.org/bbbc
- 描述: 提供生物图像数据。
-
Broad Cancer Cell Line Encyclopedia (CCLE)
- 链接: http://www.broadinstitute.org/ccle/home
- 描述: 提供癌症细胞系数据。
-
Cell Image Library
- 链接: http://www.cellimagelibrary.org
- 描述: 提供细胞图像数据。
-
Complete Genomics Public Data
- 链接: http://www.completegenomics.com/public-data/69-genomes/
- 描述: 提供基因组数据。
-
EBI ArrayExpress
- 链接: http://www.ebi.ac.uk/arrayexpress/
- 描述: 提供基因表达数据。
-
EBI Protein Data Bank in Europe
- 链接: http://www.ebi.ac.uk/pdbe/emdb/index.html/
- 描述: 提供蛋白质数据。
-
ENCODE project
- 链接: https://www.encodeproject.org
- 描述: 提供基因组注释数据。
-
Electron Microscopy Pilot Image Archive (EMPIAR)
- 链接: http://www.ebi.ac.uk/pdbe/emdb/empiar/
- 描述: 提供电子显微镜图像数据。
-
Ensembl Genomes
- 链接: http://ensemblgenomes.org/info/genomes
- 描述: 提供基因组数据。
-
Gene Expression Omnibus (GEO)
- 链接: http://www.ncbi.nlm.nih.gov/geo/
- 描述: 提供基因表达数据。
-
Gene Ontology (GO)
- 链接: http://geneontology.org/page/download-annotations
- 描述: 提供基因本体数据。
-
Global Biotic Interactions (GloBI)
- 链接: https://github.com/jhpoelen/eol-globi-data/wiki#accessing-species-interaction-data
- 描述: 提供物种相互作用数据。
-
Harvard Medical School (HMS) LINCS Project
- 链接: http://lincs.hms.harvard.edu
- 描述: 提供细胞系数据。
-
Human Genome Diversity Project
- 链接: http://www.hagsc.org/hgdp/files.html
- 描述: 提供人类基因组多样性数据。
-
Human Microbiome Project (HMP)
- 链接: http://www.hmpdacc.org/reference_genomes/reference_genomes.php
- 描述: 提供人类微生物组数据。
-
ICOS PSP Benchmark
- 链接: http://ico2s.org/datasets/psp_benchmark.html
- 描述: 提供生物信息学数据。
-
International HapMap Project
- 链接: http://hapmap.ncbi.nlm.nih.gov/downloads/index.html.en
- 描述: 提供人类遗传变异数据。
-
Journal of Cell Biology DataViewer
- 链接: http://jcb-dataviewer.rupress.org
- 描述: 提供细胞生物学数据。
-
KEGG - KEGG is a database resource for understanding high-level functions [...]
- 链接: http://www.genome.jp/kegg/
- 描述: 提供生物信息学数据。
-
MIT Cancer Genomics Data
- 链接: http://www.broadinstitute.org/cgi-bin/cancer/datasets.cgi
- 描述: 提供癌症基因组数据。
-
NCBI Proteins
- 链接: http://www.ncbi.nlm.nih.gov/guide/proteins/#databases
- 描述: 提供蛋白质数据。
-
NCBI Taxonomy
- 链接: http://www.ncbi.nlm.nih.gov/taxonomy
- 描述: 提供分类学数据。
-
NCI Genomic Data Commons
- 链接: https://gdc-portal.nci.nih.gov
- 描述: 提供基因组数据。
-
NIH Microarray data
- 链接: http://bit.do/VVW6
- 描述: 提供微阵列数据。
-
OpenSNP genotypes data
- 链接: https://opensnp.org/
- 描述: 提供基因型数据。
-
Pathguid - Protein-Protein Interactions Catalog
- 链接: http://www.pathguide.org/
- 描述: 提供蛋白质相互作用数据。
-
Protein Data Bank
- 链接: http://www.rcsb.org/
- 描述: 提供蛋白质结构数据。
-
Psychiatric Genomics Consortium
- 链接: https://www.med.unc.edu/pgc/downloads
- 描述: 提供精神病学基因组数据。
-
PubChem Project
- 链接: https://pubchem.ncbi.nlm.nih.gov/
- 描述: 提供化学数据。
-
PubGene (now Coremine Medical)
- 链接: http://www.pubgene.org/
- 描述: 提供基因和疾病关联数据。
-
Sanger Catalogue of Somatic Mutations in Cancer (COSMIC)
- 链接: http://cancer.sanger.ac.uk/cosmic
- 描述: 提供癌症体细胞突变数据。
-
Sanger Genomics of Drug Sensitivity in Cancer Project (GDSC)
- 链接: http://www.cancerrxgene.org/
- 描述: 提供癌症药物敏感性数据。
-
Sequence Read Archive(SRA)
- 链接: http://www.ncbi.nlm.nih.gov/Traces/sra/
- 描述: 提供序列读取数据。
-
Stanford Microarray Data
- 链接: http://smd.stanford.edu/
- 描述: 提供微阵列数据。
-
Stowers Institute Original Data Repository
- 链接: http://www.stowers.org/research/publications/odr
- 描述: 提供原始生物数据。
-
Systems Science of Biological Dynamics (SSBD) Database
- 链接: http://ssbd.qbic.riken.jp
- 描述: 提供生物动力学数据。
-
The Cancer Genome Atlas (TCGA), available via Broad GDAC
- 链接: https://gdac.broadinstitute.org/
- 描述: 提供癌症基因组数据。
-
The Catalogue of Life
- 链接: http://www.catalogueoflife.org/content/annual-checklist-archive
- 描述: 提供生物多样性数据。
-
The Personal Genome Project
- 链接: http://www.personalgenomes.org/
- 描述: 提供个人基因组数据。
-
UCSC Public Data
- 链接: http://hgdownload.soe.ucsc.edu/downloads.html
- 描述: 提供公共基因组数据。
-
UniGene
- 链接: http://www.ncbi.nlm.nih.gov/unigene
- 描述: 提供基因表达数据。
-
Universal Protein Resource (UnitProt)
- 链接: http://www.uniprot.org/downloads
- 描述: 提供蛋白质数据。
气候+天气
-
Actuaries Climate Index
- 链接: http://actuariesclimateindex.org/data/
- 描述: 提供气候指数数据。
-
Australian Weather
- 链接: http://www.bom.gov.au/climate/dwo/
- 描述: 提供澳大利亚天气数据。
-
Aviation Weather Center - Consistent, timely and accurate weather [...]
- 链接: https://aviationweather.gov/adds/dataserver
- 描述: 提供航空天气数据。
-
Brazilian Weather - Historical data (In Portuguese)
- 链接: http://sinda.crn2.inpe.br/PCD/SITE/novo/site/
- 描述: 提供巴西历史天气数据。
-
Canadian Meteorological Centre
- 链接: http://weather.gc.ca/grib/index_e.html
- 描述: 提供加拿大气象数据。
-
Climate Data from UEA (updated monthly)
- 链接: https://crudata.uea.ac.uk/cru/data/temperature/#datter and ftp://ftp.cmdl.noaa.gov/
- 描述: 提供气候数据。
-
European Climate Assessment & Dataset
- 链接: http://eca.knmi.nl/
- 描述: 提供欧洲气候评估数据。
-
Global Climate Data Since 1929
- 链接: http://en.tutiempo.net/climate
- 描述: 提供全球气候数据。
-
NASA Global Imagery Browse Services
- 链接: https://wiki.earthdata.nasa.gov/display/GIBS
- 描述: 提供NASA全球图像浏览服务。
-
NOAA Bering Sea Climate
- 链接: http://www.beringclimate.noaa.gov/
- 描述: 提供白令海气候数据。
-
NOAA Climate Datasets
- 链接: http://www.ncdc.noaa.gov/data-access/quick-links
- 描述: 提供NOAA气候数据集。
-
NOAA Realtime Weather Models
- 链接: http://www.ncdc.noaa.gov/data-access/model-data/model-datasets/numerical-weather-prediction
- 描述: 提供NOAA实时天气模型数据。
-
NOAA SURFRAD Meteorology and Radiation Datasets
- 链接: https://www.esrl.noaa.gov/gmd/grad/stardata.html
- 描述: 提供SURFRAD气象和辐射数据。
-
The World Bank Open Data Resources for Climate Change
- 链接: http://data.worldbank.org/developers/climate-data-api
- 描述: 提供世界银行气候变化数据资源。
-
UEA Climatic Research Unit
- 链接: http://www.cru.uea.ac.uk/data
- 描述: 提供气候研究数据。
-
WU Historical Weather Worldwide
- 链接: https://www.wunderground.com/history/index.html
- 描述: 提供全球历史天气数据。
-
WorldClim - Global Climate Data
- 链接: http://www.worldclim.org
- 描述: 提供全球气候数据。
复杂网络
-
AMiner Citation Network Dataset
- 链接: http://aminer.org/citation
- 描述: 提供引文网络数据。
-
CrossRef DOI URLs
- 链接: https://archive.org/details/doi-urls
- 描述: 提供DOI URL数据。
-
DBLP Citation dataset
- 链接: https://kdl.cs.umass.edu/display/public/DBLP
- 描述: 提供DBLP引文数据。
-
DIMACS Road Networks Collection
- 链接: http://www.dis.uniroma1.it/challenge9/download.shtml
- 描述: 提供道路网络数据。
-
NBER Patent Citations
- 链接: http://nber.org/patents/
- 描述: 提供专利引文数据。
-
NIST complex networks data collection
- 链接: http://math.nist.gov/~RPozo/complex_datasets.html
- 描述: 提供复杂网络数据。
-
Network Repository with Interactive Exploratory Analysis Tools
- 链接: http://networkrepository.com/
- 描述: 提供网络数据和分析工具。
-
Protein-protein interaction network
- 链接: http://vlado.fmf.uni-lj.si/pub/networks/data/bio/Yeast/Yeast.htm
- 描述: 提供蛋白质相互作用网络数据。
-
PyPI and Maven Dependency Network
- 链接: https://ogirardot.wordpress.com/2013/01/31/sharing-pypimaven-dependency-data/
- 描述: 提供PyPI和Maven依赖网络数据。
-
Scopus Citation Database
- 链接: https://www.elsevier.com/solutions/scopus
- 描述: 提供Scopus引文数据库。
-
Small Network Data
- 链接: http://www-personal.umich.edu/~mejn/netdata/
- 描述: 提供小型网络数据。
-
Stanford GraphBase
- 链接: http://www3.cs.stonybrook.edu/~algorith/implement/graphbase/implement.shtml
- 描述: 提供图数据。
-
Stanford Large Network Dataset Collection
- 链接: http://snap.stanford.edu/data/
- 描述: 提供大型网络数据集。
-
Stanford Longitudinal Network Data Sources
- 链接: http://stanford.edu/group/sonia/dataSources/index.html
- 描述: 提供纵向网络数据源。
-
The Koblenz Network Collection
- 链接: http://konect.uni-koblenz.de/
- 描述: 提供网络数据集。
-
The Laboratory for Web Algorithmics (UNIMI)
- 链接: http://law.di.unimi.it/datasets.php
- 描述: 提供网络算法数据。
-
The Nexus Network Repository
- 链接: http://nexus.igraph.org/
- 描述: 提供网络数据。
-
UCI Network Data Repository
- 链接: https://networkdata.ics.uci.edu/resources.php
- 描述: 提供网络数据存储库。
-
UFL sparse matrix collection
- 链接: http://www.cise.ufl.edu/research/sparse/matrices/
- 描述: 提供稀疏矩阵数据。
-
WSU Graph Database
- 链接: http://www.eecs.wsu.edu/mgd/gdb.html
- 描述: 提供图数据库。
计算机网络
-
3.5B Web Pages from CommonCrawl 2012
- 链接: http://www.bigdatanews.com/profiles/blogs/big-data-set-3-5-billion-web-pages-made-available-for-all-of-us
- 描述: 提供35亿网页数据。
-
53.5B Web clicks of 100K users in Indiana Univ.
- 链接: http://cnets.indiana.edu/groups/nan/webtraffic/click-dataset/
- 描述: 提供535亿网络点击数据。
-
CAIDA Internet Datasets
- 链接: http://www.caida.org/data/overview/
- 描述: 提供互联网数据集。
-
CRAWDAD Wireless datasets from Dartmouth Univ.
- 链接: https




