多个数据集
收藏github2016-12-18 更新2024-05-31 收录
下载链接:
https://github.com/neo4reo/awesome-public-datasets
下载链接
链接失效反馈官方服务:
资源简介:
这是一个包含多个领域的高质量公开数据集的列表,涵盖农业、生物学等多个领域的数据集。
This is a list of high-quality public datasets spanning multiple domains, including agriculture, biology, and more.
创建时间:
2016-02-09
原始信息汇总
数据集概述
农业
- U.S. Department of Agricultures PLANTS Database
生物学
- 1000 Genomes
- American Gut (Microbiome Project)
- Broad Cancer Cell Line Encyclopedia (CCLE)
- Cell Image Library
- Collaborative Research in Computational Neuroscience (CRCNS)
- Complete Genomics Public Data
- EBI ArrayExpress
- EBI Protein Data Bank in Europe
- ENCODE project
- Ensembl Genomes
- Gene Expression Omnibus (GEO)
- Gene Ontology (GO)
- Global Biotic Interations (GloBI)
- Harvard Medical School (HMS) LINCS Project
- Human Genome Diversity Project
- Human Microbiome Project (HMP)
- ICOS PSP Benchmark
- International HapMap Project
- Journal of Cell Biology DataViewer
- MIT Cancer Genomics Data
- NCBI Proteins
- NCBI Taxonomy
- NeuroData
- NIH Microarray data
- 链接: http://bit.do/VVW6 或 FTP
- OpenSNP genotypes data
- Pathguid - Protein-Protein Interactions Catalog
- Protein Data Bank
- PubChem Project
- PubGene (now Coremine Medical)
- Sanger Catalogue of Somatic Mutations in Cancer (COSMIC)
- Sanger Genomics of Drug Sensitivity in Cancer Project (GDSC)
- Sequence Read Archive(SRA)
- Stanford Microarray Data
- Stowers Institute Original Data Repository
- Systems Science of Biological Dynamics (SSBD) Database
- Temple University Hospital EEG Database
- The Cancer Genome Atlas (TCGA), available via Broad GDAC
- The Catalogue of Life
- The Personal Genome Project
- UCSC Public Data
- Universal Protein Resource (UnitProt)
- UniGene
气候/天气
- Australian Weather
- Brazilian Weather - Historical data (In Portuguese)
- Canadian Meteorological Centre
- Climate Data from UEA (updated monthly)
- European Climate Assessment & Dataset
- Global Climate Data Since 1929
- NASA Global Imagery Browse Services
- NOAA Bering Sea Climate
- NOAA Climate Datasets
- NOAA Realtime Weather Models
- The World Bank Open Data Resources for Climate Change
- UEA Climatic Research Unit
- WorldClim - Global Climate Data
- WU Historical Weather Worldwide
复杂网络
- CrossRef DOI URLs
- DBLP Citation dataset
- NBER Patent Citations
- NIST complex networks data collection
- Protein-protein interaction network
- PyPI and Maven Dependency Network
- Scopus Citation Database
- Small Network Data
- Stanford GraphBase (Steven Skiena)
- Stanford Large Network Dataset Collection
- Stanford Longitudinal Network Data Sources
- The Koblenz Network Collection
- The Laboratory for Web Algorithmics (UNIMI)
- The Nexus Network Repository
- UCI Network Data Repository
- UFL sparse matrix collection
- WSU Graph Database
计算机网络
- 3.5B Web Pages from CommonCraw 2012
- 53.5B Web clicks of 100K users in Indiana Univ.
- CAIDA Internet Datasets
- ClueWeb09 - 1B web pages
- ClueWeb12 - 733M web pages
- 链接: [http://lem
搜集汇总
数据集介绍

构建方式
该数据集是通过从博客、回答和用户响应中收集和整理公共数据源而构建的。它包含了大量免费的数据库,但也包含一些非免费的数据库。
特点
数据集的特点在于其广泛性,涵盖了从农业到医疗保健,再到政府数据的各个领域。它不仅包含了结构化数据,还包含了地理空间数据和复杂网络数据。
使用方法
用户可以通过GitHub页面上的链接访问数据集,每个数据集都有详细的说明和访问方式。用户需要根据自身需求选择合适的数据集,并遵循相应的使用条款。
背景与挑战
背景概述
‘多个数据集’是一个收集和整理自博客、回答和用户响应的公共数据源列表。该数据集涵盖了许多领域,包括农业、生物学、气候/天气、复杂网络、计算机网络、上下文数据、数据挑战、经济学、教育、能源、金融、地质学、地理信息系统、政府、健康护理等。大部分列出的数据集是免费的,但也有一些不是。该数据集的创建旨在为研究人员提供一个方便的资源,以促进数据共享和合作。
当前挑战
该数据集面临的挑战主要包括:1) 数据集的多样性和异质性使得整合和比较变得困难;2) 数据质量和可靠性可能因来源的不同而有所差异;3) 部分数据集可能存在版权或访问限制,不利于广泛共享;4) 数据更新和维护的持续性难以保证。
常用场景
经典使用场景
该数据集涵盖了多个领域的公共数据集,其经典使用场景主要集中于为研究者提供丰富的数据资源,以便于进行数据分析和挖掘。例如,在生物信息学领域,可以利用1000 Genomes数据集进行基因组学研究;在气候学领域,可以使用NASA Global Imagery Browse Services数据集进行气候变化的长期趋势分析。
实际应用
实际应用中,该数据集可用于政策制定、公共健康分析、市场研究等多个领域。例如,政府机构可以利用这些数据集来制定更加有效的政策,企业可以利用经济数据来指导商业决策,公共健康部门可以利用健康数据来改善公共卫生服务。
衍生相关工作
该数据集衍生了众多相关的工作,如基于数据集的学术研究论文、开源项目和应用软件。这些衍生工作不仅推动了数据集的进一步应用,也为相关领域的知识积累和技术发展做出了贡献。
以上内容由遇见数据集搜集并总结生成



