awesome-public-datasets
收藏github2017-06-19 更新2024-05-31 收录
下载链接:
https://github.com/MuharremOkutan/awesome-public-datasets
下载链接
链接失效反馈官方服务:
资源简介:
一个包含高质量公开数据集的列表,涵盖多个领域,如农业、生物学、气候/天气等。
A list of high-quality public datasets covering multiple fields such as agriculture, biology, climate/weather, etc.
创建时间:
2017-02-27
原始信息汇总
数据集概述
农业
- U.S. Department of Agricultures PLANTS Database: 链接
生物学
- 1000 Genomes: 链接
- American Gut (Microbiome Project): 链接
- Collaborative Research in Computational Neuroscience (CRCNS): 链接
- EBI ArrayExrepss: 链接
- ENCODE project: 链接
- Ensembl Genomes: 链接
- Gene Expression Omnibus (GEO): 链接
- Gene Ontology (GO): 链接
- Global Biotic Interactions (GloBI): 链接
- Human Microbiome Project (HMP): 链接
- ICOS PSP Benchmark: 链接
- MIT Cancer Genomics Data: 链接
- NIH Microarray data: 链接 或 FTP链接
- OpenSNP genotypes data: 链接
- Pathguid - Protein-Protein Interactions Catalog: 链接
- Protein Data Bank: 链接
- PubChem Project: 链接
- PubGene (now Coremine Medical): 链接
- Sequence Read Archive(SRA): 链接
- Stanford Microarray Data: 链接
- The Catalogue of Life: 链接
- The Personal Genome Project: 链接 或 PGP链接
- UCSC Public Data: 链接
- UniGene: 链接
气候/天气
- Australian Weather: 链接
- Brazilian Weather - Historical data (In Portuguese): 链接
- Canadian Meteorological Centre: 链接
- Climate Data from UEA (updated monthly): 链接 和 FTP链接
- European Climate Assessment & Dataset: 链接
- Global Climate Data Since 1929: 链接
- NASA Global Imagery Browse Services: 链接
- NOAA Bering Sea Climate: 链接
- NOAA Climate Datasets: 链接
- NOAA Realtime Weather Models: 链接
- The World Bank Open Data Resources for Climate Change: 链接
- UEA Climatic Research Unit: 链接
- WorldClim - Global Climate Data: 链接
- WU Historical Weather Worldwide: 链接
复杂网络
- CrossRef DOI URLs: 链接
- DBLP Citation dataset: 链接
- NBER Patent Citations: 链接
- NIST complex networks data collection: 链接
- Protein-protein interaction network: 链接
- PyPI and Maven Dependency Network: 链接
- Scopus Citation Database: 链接
- Small Network Data: 链接
- Stanford GraphBase (Steven Skiena): 链接
- Stanford Large Network Dataset Collection: 链接
- The Koblenz Network Collection: 链接
- The Laboratory for Web Algorithmics (UNIMI): 链接
- The Nexus Network Repository: 链接
- UCI Network Data Repository: 链接
- UFL sparse matrix collection: 链接
- WSU Graph Database: 链接
- Stanford Longitudinal Network Data Sources: 链接
计算机网络
- 3.5B Web Pages from CommonCraw 2012: 链接
- 53.5B Web clicks of 100K users in Indiana Univ.: 链接
- CAIDA Internet Datasets: 链接
- ClueWeb09 - 1B web pages: 链接
- ClueWeb12 - 733M web pages: 链接
- CommonCrawl Web Data over 7 years: 链接
- CRAWDAD Wireless datasets from Dartmouth Univ.: 链接
- Criteo click-through data: 链接
- Open Mobile Data by MobiPerf: 链接
- UCSD Network Telescope, IPv4 /8 net: 链接
上下文数据
数据挑战
- Challenges in Machine Learning: 链接
- CrowdANALYTIX dataX: 链接
- D4D Challenge of Orange: 链接
- DrivenData Competitions for Social Good: 链接
- ICWSM Data Challenge (since 2009): 链接
- Kaggle Competition Data: 链接
- KDD Cup by Tencent 2012: 链接
- Localytics Data Visualization Challenge: 链接
- Netflix Prize: 链接
- Space Apps Challenge: 链接
- Telecom Italia Big Data Challenge: 链接
- Yelp Dataset Challenge: 链接
经济学
- American Economic Ass (AEA): 链接
- EconData from UMD: 链接
- Economic Freedom of the World Data: 链接
- Historical MacroEconomic Statistics: 链接
- International Trade Statistics: 链接
- Internet Product Code Database: 链接
- Joint External Debt Data Hub: 链接
- Jon Haveman International Trade Data Links: 链接
- OpenCorporates Database of Companies in the World: 链接
- Our World in Data: 链接
- SciencesPo World Trade Gravity Datasets: 链接
- The Atlas of Economic Complexity: 链接
- The Center for International Data: 链接
- The Observatory of Economic Complexity: 链接
- UN Commodity Trade Statistics: 链接
- UN Human Development Reports: 链接
能源
- AMPds: 链接
- BLUEd: 链接
- COMBED: 链接
- Dataport: 链接
- ECO: 链接
- EIA: 链接
- HFED: 链接
- iAWE: 链接
- Plaid: 链接
- REDD: 链接
- UK-Dale: 链接
金融
- CBOE Futures Exchange: 链接
- Google Finance: 链接
- Google Trends: 链接
- NASDAQ: 链接
- OANDA: 链接
- OSU Financial data: 链接
- Quandl: 链接
- St Louis Federal: 链接
- Yahoo Finance: 链接
地质学
- Earth Models: 链接
- Smithsonian Institution Global Volcano and Eruption Database: 链接
- USGS Earthquake Archives: 链接
地理空间/GIS
- BODC - marine data of ~22K vars: 链接
- Cambridge, MA, US, GIS data on GitHub: 链接
- EOSDIS - NASAs earth observing system data: 链接
- Factual Global Location Data: 链接
- Geo Spatial Data from ASU: 链接
- Geo Wiki Project - Citizen-driven Environmental Monitoring: 链接
- GeoNames Worldwide: 链接
- Global Administrative Areas Database (GADM): 链接
- International Institute for Systems Analysis - GIS Datasets: 链接
- Landsat 8 on AWS: 链接
- List of all countries in all languages: 链接
- Natural Earth - vectors and rasters of the world: 链接
- OpenAddresses: 链接
- OpenStreetMap (OSM): 链接
- Reverse Geocoder using OSM data: 链接 & additional high-resolution data files链接
- TIGER/Line - U.S. boundaries and roads: 链接
- TwoFishes - Foursquares coarse geocoder: 链接
- TZ Timezones shapfiles: 链接
- UN Environmental Data: [链接](http://geodata.
搜集汇总
数据集介绍

构建方式
该数据集是通过收集和整理来自博客、回答和用户响应的公共数据源而构建的。数据集列出的数据集大多数是免费的,但也包含一些非免费的数据集。
使用方法
用户可以通过访问数据集提供的链接来获取数据,部分数据集支持在线浏览或下载。用户需要根据数据集的许可和用途说明来合法使用数据。
背景与挑战
背景概述
awesome-public-datasets是一个收集和整理自博客、回答和用户响应的公开数据集列表。该数据集大多免费,但也有部分数据集是收费的。其他令人惊叹的数据集列表可以在awesome-awesomeness和sindresorhus's awesome中找到。该数据集的创建时间为2012年,主要研究人员为Caesar0301,核心研究问题是收集和整理公开数据集,对相关领域的影响力体现在为研究人员提供了便捷的公开数据集资源。
当前挑战
数据集构建过程中的挑战主要包括:1)如何确保收集的数据集质量;2)如何处理和整理不同来源的数据集;3)如何提供一个用户友好的数据集搜索和下载界面。所解决的领域问题是方便研究人员快速找到并使用公开数据集,挑战在于数据的多样性、异构性和动态性。
常用场景
经典使用场景
该数据集广泛收集了各类公共数据集,常用于数据科学和机器学习领域的研究与教学。经典使用场景包括作为数据集的索引或导航,方便研究人员快速定位和访问所需的数据资源。
解决学术问题
该数据集解决了数据科学家和研究人员在寻找、整理和使用公开数据集时的困难。它通过提供一个综合性的目录,使得研究者能够高效地发现和利用这些数据集,从而推动了学术研究的进展。
实际应用
在实际应用中,该数据集可用于教育、学术研究、政策制定等多个领域。它为数据分析师和数据科学家提供了一个宝贵的数据资源库,有助于他们进行数据挖掘、趋势分析和决策支持。
数据集最近研究
最新研究方向
该数据集涵盖了多个领域的大量公共数据集,最新的研究方向主要集中在数据集的整合、应用和拓展上。例如,在生物信息学领域,研究者可能关注如何利用这些数据集进行基因表达分析、蛋白质-蛋白质相互作用网络构建等。在气候和天气领域,研究者可能探索数据集在气候模型预测、极端气候事件分析中的应用。在复杂网络和计算机网络领域,研究可能聚焦于网络结构的可视化、网络数据的挖掘与分析。政府数据领域的研究可能关注于数据开放的政策制定、数据质量控制以及数据安全性。总体而言,这些数据集为各领域的研究提供了丰富的资源,推动了相关研究的进展。
以上内容由遇见数据集搜集并总结生成



