Awesome Public Datasets
收藏github2024-05-07 更新2024-05-31 收录
下载链接:
https://github.com/SudalaiRajkumar/awesome-public-datasets
下载链接
链接失效反馈官方服务:
资源简介:
一个包含高质量公开数据集的列表,涵盖多个领域,如农业、生物学等。
A list of high-quality public datasets covering multiple fields such as agriculture, biology, etc.
创建时间:
2017-03-20
原始信息汇总
数据集概述
农业
- U.S. Department of Agricultures PLANTS Database
生物学
- 1000 Genomes
- American Gut (Microbiome Project)
- Broad Cancer Cell Line Encyclopedia (CCLE)
- Broad Bioimage Benchmark Collection (BBBC)
- Cell Image Library
- Complete Genomics Public Data
- EBI ArrayExpress
- EBI Protein Data Bank in Europe
- Electron Microscopy Pilot Image Archive (EMPIAR)
- ENCODE project
- Ensembl Genomes
- Gene Expression Omnibus (GEO)
- Gene Ontology (GO)
- Global Biotic Interactions (GloBI)
- Harvard Medical School (HMS) LINCS Project
- Human Genome Diversity Project
- Human Microbiome Project (HMP)
- ICOS PSP Benchmark
- International HapMap Project
- Journal of Cell Biology DataViewer
- MIT Cancer Genomics Data
- NCBI Proteins
- NCBI Taxonomy
- NCI Genomic Data Commons
- NIH Microarray data
- 链接:http://bit.do/VVW6 或 FTP (参见
RAW <https://raw.githubusercontent.com/caesar0301/awesome-public-datasets/master/README.rst>_)
- 链接:http://bit.do/VVW6 或 FTP (参见
- OpenSNP genotypes data
- Pathguid - Protein-Protein Interactions Catalog
- Protein Data Bank
- Psychiatric Genomics Consortium
- PubChem Project
- PubGene (now Coremine Medical)
- Sanger Catalogue of Somatic Mutations in Cancer (COSMIC)
- Sanger Genomics of Drug Sensitivity in Cancer Project (GDSC)
- Sequence Read Archive(SRA)
- Stanford Microarray Data
- Stowers Institute Original Data Repository
- Systems Science of Biological Dynamics (SSBD) Database
- The Cancer Genome Atlas (TCGA), available via Broad GDAC
- The Catalogue of Life
- The Personal Genome Project
- UCSC Public Data
- Universal Protein Resource (UnitProt)
- UniGene
气候/天气
- Actuaries Climate Index
- Australian Weather
- Aviation Weather Center - Consistent, timely and accurate weather information for the world airspace system
- Brazilian Weather - Historical data (In Portuguese)
- Canadian Meteorological Centre
- Climate Data from UEA (updated monthly)
- European Climate Assessment & Dataset
- Global Climate Data Since 1929
- NASA Global Imagery Browse Services
- NOAA Bering Sea Climate
- NOAA Climate Datasets
- NOAA Realtime Weather Models
- NOAA SURFRAD Meteorology and Radiation Datasets
- The World Bank Open Data Resources for Climate Change
- UEA Climatic Research Unit
- WorldClim - Global Climate Data
- WU Historical Weather Worldwide
复杂网络
- AMiner Citation Network Dataset
- CrossRef DOI URLs
- DBLP Citation dataset
- NBER Patent Citations
- Network Repository with Interactive Exploratory Analysis Tools
- NIST complex networks data collection
- Protein-protein interaction network
- PyPI and Maven Dependency Network
- Scopus Citation Database
- Small Network Data
- Stanford GraphBase (Steven Skiena)
- Stanford Large Network Dataset Collection
- Stanford Longitudinal Network Data Sources
- The Koblenz Network Collection
- The Laboratory for Web Algorithmics (UNIMI)
- The Nexus Network Repository
- UCI Network Data Repository
- UFL sparse matrix collection
-
WSU Graph Database
搜集汇总
数据集介绍

构建方式
Awesome Public Datasets 数据集的构建方式主要依赖于从博客、问答平台以及用户反馈中收集和整理公开数据源。这些数据源涵盖了多个领域,包括农业、生物学、气候、复杂网络、计算机网络、地球科学、经济学、教育、能源、金融、GIS、政府、医疗、图像处理和机器学习等。数据集的构建过程涉及对这些来源的系统筛选和分类,以确保数据的多样性和广泛性。
特点
Awesome Public Datasets 数据集的一个显著特点是其广泛性和多样性。该数据集包含了来自全球多个领域的公开数据,涵盖了从农业到金融、从生物学到计算机网络的广泛主题。此外,数据集中的数据源既有免费提供的,也有部分需要付费访问的,这为用户提供了灵活的选择。数据集的另一个特点是其持续更新,确保用户能够获取到最新的数据资源。
使用方法
Awesome Public Datasets 数据集的使用方法相对简单。用户可以通过访问数据集的GitHub页面,浏览各个领域的数据源链接,并根据需求下载相应的数据。对于需要付费的数据源,用户需按照提供方的要求进行访问。此外,数据集还提供了详细的分类和索引,帮助用户快速定位所需的数据资源。用户可以根据自己的研究或项目需求,选择合适的数据源进行分析和应用。
背景与挑战
背景概述
Awesome Public Datasets 是一个汇集了大量公开数据集的资源列表,涵盖了从农业、生物学到气候、经济等多个领域。该数据集由社区成员从博客、问答平台和用户反馈中整理而成,旨在为研究人员、开发者和数据爱好者提供一个便捷的入口,以获取各种领域的公开数据。这些数据集的来源广泛,包括政府机构、科研机构、企业等,且大多数数据集是免费的。Awesome Public Datasets 的创建为跨学科研究提供了丰富的数据资源,推动了数据驱动的研究和应用的发展。
当前挑战
尽管 Awesome Public Datasets 提供了丰富的数据资源,但在使用过程中仍面临诸多挑战。首先,数据集的质量和格式各异,部分数据集可能存在缺失值或不一致性,增加了数据预处理的复杂性。其次,部分数据集的获取可能需要特定的权限或付费,限制了其广泛使用。此外,数据集的更新频率和维护状态不一,部分数据集可能已经过时或不再可用,影响了研究的时效性和可靠性。最后,跨领域的数据集整合和分析也面临技术上的挑战,如数据标准化、跨领域知识的融合等。
常用场景
经典使用场景
Awesome Public Datasets 数据集是一个广泛收集和整理的公共数据资源列表,涵盖了多个领域,如农业、生物学、气候、计算机网络、经济学、教育、能源、金融、地理信息系统(GIS)、政府、健康、图像处理、机器学习等。该数据集的经典使用场景包括学术研究、数据分析、机器学习模型训练、以及跨学科的数据探索。研究人员和开发者可以利用这些数据集进行各种实验和分析,从而推动各自领域的研究进展。
衍生相关工作
Awesome Public Datasets 数据集的广泛应用催生了许多相关的经典工作。例如,在生物信息学领域,基于该数据集的基因组数据,研究人员开发了多种基因预测和分析工具;在机器学习领域,该数据集被用于训练和验证各种算法模型,推动了深度学习和自然语言处理技术的发展。此外,该数据集还激发了多个数据挑战赛和开源项目,进一步促进了数据科学社区的交流与合作。
数据集最近研究
最新研究方向
在生物学领域,Awesome Public Datasets 数据集的最新研究方向主要集中在基因组学、蛋白质相互作用网络以及微生物组数据的深度分析上。随着高通量测序技术的进步,研究人员利用该数据集中的1000 Genomes、Human Microbiome Project等资源,探索基因变异与疾病之间的关联,以及微生物群落在人类健康中的作用。此外,蛋白质相互作用网络的数据集如Pathguide和Protein Data Bank,为研究蛋白质功能和药物设计提供了丰富的资源,推动了精准医学的发展。这些研究不仅深化了对生命复杂性的理解,也为个性化医疗和新型药物开发提供了理论基础。
以上内容由遇见数据集搜集并总结生成



