awesome-public-datasets
收藏github2023-02-13 更新2024-05-31 收录
下载链接:
https://github.com/josephmisiti/awesome-public-datasets
下载链接
链接失效反馈官方服务:
资源简介:
一个包含高质量公开数据集的列表,涵盖多个领域,如农业、生物学、气候/天气等。
A compilation of high-quality public datasets spanning various domains, including agriculture, biology, climate/weather, and more.
创建时间:
2016-01-18
原始信息汇总
数据集概述
农业
- U.S. Department of Agricultures PLANTS Database
生物学
- 1000 Genomes
- American Gut (Microbiome Project)
- Collaborative Research in Computational Neuroscience (CRCNS)
- EBI ArrayExrepss
- ENCODE project
- Ensembl Genomes
- Gene Expression Omnibus (GEO)
- Gene Ontology (GO)
- Global Biotic Interations (GloBI)
- Human Microbiome Project (HMP)
- ICOS PSP Benchmark
- MIT Cancer Genomics Data
- NIH Microarray data
- 链接: http://bit.do/VVW6 或 FTP
- OpenSNP genotypes data
- Pathguid - Protein-Protein Interactions Catalog
- Protein Data Bank
- PubChem Project
- PubGene (now Coremine Medical)
- Sequence Read Archive(SRA)
- Stanford Microarray Data
- The Catalogue of Life
- The Personal Genome Project
- UCSC Public Data
- UniGene
气候/天气
- Australian Weather
- Brazilian Weather - Historical data (In Portuguese)
- Canadian Meteorological Centre
- Climate Data from UEA (updated monthly)
- European Climate Assessment & Dataset
- Global Climate Data Since 1929
- NASA Global Imagery Browse Services
- NOAA Bering Sea Climate
- NOAA Climate Datasets
- NOAA Realtime Weather Models
- The World Bank Open Data Resources for Climate Change
- UEA Climatic Research Unit
- WorldClim - Global Climate Data
- WU Historical Weather Worldwide
复杂网络
- CrossRef DOI URLs
- DBLP Citation dataset
- NBER Patent Citations
- NIST complex networks data collection
- Protein-protein interaction network
- PyPI and Maven Dependency Network
- Scopus Citation Database
- Small Network Data
- Stanford GraphBase (Steven Skiena)
- Stanford Large Network Dataset Collection
- The Koblenz Network Collection
- The Laboratory for Web Algorithmics (UNIMI)
- The Nexus Network Repository
- UCI Network Data Repository
- UFL sparse matrix collection
- WSU Graph Database
- Stanford Longitudinal Network Data Sources
计算机网络
- 3.5B Web Pages from CommonCraw 2012
- 53.5B Web clicks of 100K users in Indiana Univ.
- CAIDA Internet Datasets
- ClueWeb09 - 1B web pages
- ClueWeb12 - 733M web pages
- CommonCrawl Web Data over 7 years
- CRAWDAD Wireless datasets from Dartmouth Univ.
- Criteo click-through data
- Open Mobile Data by MobiPerf
- UCSD Network Telescope, IPv4 /8 net
上下文数据
- Context-aware data sets from five domains
数据挑战
- Challenges in Machine Learning
- CrowdANALYTIX dataX
- D4D Challenge of Orange
- DrivenData Competitions for Social Good
- ICWSM Data Challenge (since 2009)
- Kaggle Competition Data
- KDD Cup by Tencent 2012
- Localytics Data Visualization Challenge
- Netflix Prize
- Space Apps Challenge
-
Telecom Italia Big Data Challenge
搜集汇总
数据集介绍

构建方式
该数据集通过广泛收集和整理来自博客、问答平台以及用户反馈的公开数据源构建而成。其构建过程注重数据的多样性和覆盖面,涵盖了从农业、生物学到气候、经济等多个领域的数据集。每个数据集均经过筛选和分类,确保其来源的可靠性和数据的实用性。尽管大部分数据集为免费提供,但也有部分数据集需要付费获取。
特点
该数据集的特点在于其广泛的数据覆盖范围和多样化的数据来源。它不仅包含了来自政府机构、科研机构的权威数据,还整合了来自开源社区和企业的数据资源。数据集按领域分类,便于用户快速查找所需数据。此外,数据集的更新频率较高,确保了数据的时效性和实用性。
使用方法
用户可以通过访问GitHub页面浏览数据集列表,并根据需求选择相应的数据源进行下载或访问。每个数据集均附有详细的描述和链接,用户可以根据领域分类快速定位所需数据。对于需要进一步处理的数据,用户可以参考数据集提供的文档或API接口进行数据提取和分析。该数据集适用于科研、教育、商业等多个领域的应用场景。
背景与挑战
背景概述
awesome-public-datasets 数据集是一个广泛收集和整理公共数据资源的项目,涵盖了从农业、生物学、气候、复杂网络到计算机科学等多个领域。该项目由caesar0301在GitHub上发起,旨在为研究人员、数据科学家和开发者提供一个便捷的公共数据源索引。数据集的内容主要来源于博客、用户反馈和问答社区,大部分数据是免费的,但也包含部分付费资源。该项目的创建时间可追溯至2015年,其影响力逐渐扩大,成为数据科学领域中一个重要的参考资源。通过整合来自全球各地的数据源,awesome-public-datasets为跨学科研究提供了丰富的数据支持,推动了数据驱动的研究和创新。
当前挑战
awesome-public-datasets 数据集面临的主要挑战包括数据源的多样性和数据质量的参差不齐。由于数据来自不同的领域和机构,数据的格式、结构和更新频率差异较大,这给数据整合和使用带来了困难。此外,部分数据源的访问权限和许可限制也可能影响数据的可用性。在构建过程中,项目维护者需要不断验证和更新数据链接,确保数据的有效性和时效性。同时,随着数据量的增加,如何高效地组织和分类数据,以便用户快速找到所需资源,也是一个持续的挑战。这些问题的解决需要依赖社区的贡献和自动化工具的支持,以提升数据集的可维护性和用户体验。
常用场景
经典使用场景
awesome-public-datasets 数据集广泛应用于多个领域的研究与开发,尤其是在数据科学、机器学习和人工智能领域。研究人员和开发者可以通过该数据集快速获取高质量的公开数据,用于模型训练、算法验证和数据分析。其涵盖的领域包括生物学、气候、经济学、能源等,为跨学科研究提供了丰富的数据支持。
实际应用
在实际应用中,awesome-public-datasets 数据集被广泛用于商业分析、政策制定和公共服务优化。例如,企业可以利用其中的经济数据预测市场趋势,政府机构可以借助气候数据制定应对气候变化的政策。此外,该数据集还为教育机构提供了丰富的教学资源,帮助学生和教师更好地理解数据科学的应用。
衍生相关工作
基于 awesome-public-datasets 数据集,许多经典的研究工作得以展开。例如,在机器学习领域,研究人员利用其中的图像数据集开发了先进的图像识别算法;在气候科学领域,学者们通过分析气候数据提出了新的气候变化模型。这些衍生工作不仅推动了各自领域的发展,也为后续研究提供了宝贵的参考。
以上内容由遇见数据集搜集并总结生成



