Awesome Public Datasets
收藏github2016-12-18 更新2024-05-31 收录
下载链接:
https://github.com/chuvanan/awesome-public-datasets
下载链接
链接失效反馈官方服务:
资源简介:
这是一个收集和整理自互联网上的大规模公共数据集的列表,涵盖了农业、生物学、气候/天气、复杂网络等多个领域。
This is a list of large-scale public datasets collected and organized from the internet, covering various fields such as agriculture, biology, climate/weather, complex networks, and more.
创建时间:
2015-04-18
原始信息汇总
数据集概述
农业
- U.S. Department of Agricultures PLANTS Database
生物学
- 1000 Genomes
- 链接:1000 Genomes
- Collaborative Research in Computational Neuroscience (CRCNS)
- 链接:CRCNS
- Gene Expression Omnibus (GEO)
- 链接:GEO
- Human Microbiome Project (HMP)
- 链接:HMP
- ICOS PSP Benchmark
- MIT Cancer Genomics Data
- NIH Microarray data (FTP)
- Protein Data Bank
- PubChem Project
- PubGene (now Coremine Medical)
- 链接:PubGene
- Stanford Microarray Data
- The Personal Genome Project
- UCSC Public Data
- UniGene
- 链接:UniGene
气候/天气
- Australian Weather
- Canadian Meteorological Centre
- Climate Data from UEA (updated monthly)
- 链接:[Climate Data from UEA](http://www.cru.uea.ac.uk/cru/data/temperature/#datter and ftp://ftp.cmdl.noaa.gov/)
- Global Climate Data Since 1929
- NASA Global Imagery Browse Services
- NOAA Bering Sea Climate
- NOAA Climate Datasets
- NOAA Realtime Weather Models
- WU Historical Weather Worldwide
复杂网络
- CrossRef DOI URLs
- DBLP Citation dataset
- NBER Patent Citations
- NIST complex networks data collection
- Small Network Data
- UCI Network Data Repository
- Protein-protein interaction network
- PyPI and Maven Dependency Network
- Scopus Citation Database
- Stanford GraphBase (Steven Skiena)
- Stanford Large Network Dataset Collection
- The Koblenz Network Collection
- The Laboratory for Web Algorithmics (UNIMI)
- The Nexus Network Repository
- UCI Network Data Repository
- UFL sparse matrix collection
- WSU Graph Database
计算机网络
- 3.5B Web Pages from CommonCraw 2012
- 53.5B Web clicks of 100K users in Indiana Univ.
- CAIDA Internet Datasets
- ClueWeb09 - 1B web pages
- ClueWeb12 - 733M web pages
- CommonCrawl Web Data over 7 years
- CRAWDAD Wireless datasets from Dartmouth Univ.
- Criteo click-through data
- Open Mobile Data by MobiPerf
- UCSD Network Telescope, IPv4 /8 net
数据挑战
- Challenges in Machine Learning
- D4D Challenge of Orange
- DrivenData Competitions for Social Good
- ICWSM Data Challenge (since 2009)
- Kaggle Competition Data
- KDD Cup by Tencent 2012
- Localytics Data Visualization Challenge
- Netflix Prize
- Space Apps Challenge
- Telecom Italia Big Data Challenge
- Yelp Dataset Challenge
经济学
- American Economic Ass (AEA)
- EconData from UMD
- Internet Product Code Database
能源
- AMPds
- 链接:AMPds
- BLUEd
- 链接:BLUEd
- COMBED
- 链接:COMBED
- Dataport
- 链接:Dataport
- ECO
- 链接:ECO
- EIA
- 链接:EIA
- HFED
- 链接:HFED
- iAWE
- 链接:iAWE
- Plaid
- 链接:Plaid
- REDD
- 链接:REDD
- UK-Dale
- 链接:UK-Dale
金融
- CBOE Futures Exchange
- Google Finance
- Google Trends
- NASDAQ
- 链接:NASDAQ
- OANDA
- 链接:OANDA
- OSU Financial data
- Quandl
- 链接:Quandl
- St Louis Federal
- Yahoo Finance
地理空间/GIS
- BODC - marine data of ~22K vars
- Cambridge, MA, US, GIS data on GitHub
- EOSDIS - NASAs earth observing system data
- Factual Global Location Data
- Geo Spatial Data from ASU
- GeoNames Worldwide
- Global Administrative Areas Database (GADM)
- Landsat 8 on AWS
- Natural Earth - vectors and rasters of the world
- Open Street Map (OSM)
- TIGER/Line - U.S. boundaries and roads
- TwoFishes - Foursquares coarse geocoder
- TZ Timezones shapfiles
- World countries in multiple formats
- OpenAddresses
政府
- Australia (abs.gov.au)
- Australia (data.gov.au)
- Brazil
- 链接:[
搜集汇总
数据集介绍

构建方式
Awesome Public Datasets 数据集通过整合来自博客、问答平台以及用户反馈的公开数据源构建而成。该数据集涵盖了多个领域,包括农业、生物学、气候、复杂网络、计算机网络等,数据来源广泛且多样。数据集中的大部分数据是免费的,但也包含部分付费资源。通过这种方式,数据集为用户提供了一个全面且易于访问的公开数据集合。
特点
Awesome Public Datasets 数据集的特点在于其广泛的覆盖范围和多样化的数据来源。数据集不仅包含了来自政府机构、科研组织和企业的数据,还涵盖了多个学科领域,如生物学、气候学、经济学等。此外,数据集中的每个数据源都附有详细的链接和描述,方便用户快速定位所需数据。这种结构化的整理方式使得数据集在科研、教育和商业应用中具有较高的实用价值。
使用方法
使用 Awesome Public Datasets 数据集时,用户可以通过浏览数据集中的分类目录,快速找到感兴趣的数据源。每个数据源都附有链接和简要说明,用户可以直接访问相关网站获取数据。对于科研人员,该数据集可以作为数据探索和实验的基础;对于教育工作者,它可以作为教学资源;对于开发者,数据集中的公开数据可以用于构建应用程序或进行数据分析。用户还可以通过数据集提供的链接进一步探索其他相关的数据集资源。
背景与挑战
背景概述
Awesome Public Datasets 是一个广泛收集和整理公共数据源的资源库,涵盖了从农业、生物学到气候、计算机网络等多个领域的数据集。该数据集由GitHub用户caesar0301于2013年创建,旨在为研究人员、数据科学家和开发者提供一个便捷的公共数据访问平台。其数据来源多样,包括博客、用户反馈和公开数据库,部分数据集免费提供,部分则需付费。该资源库的创建极大地促进了数据驱动的科学研究和技术创新,尤其在机器学习和数据分析领域,为研究者提供了丰富的数据支持。
当前挑战
Awesome Public Datasets 面临的主要挑战包括数据集的多样性和质量不一致问题。由于数据来源广泛,部分数据集可能存在格式不统一、数据缺失或更新不及时的情况,这为数据预处理和分析带来了额外的复杂性。此外,尽管大多数数据集是免费的,但部分数据集需要付费或特殊权限访问,这可能限制了一些研究者的使用。另一个挑战是数据集的维护和更新,随着技术的进步和新数据的产生,如何确保数据集的时效性和准确性是一个持续的问题。最后,数据集的分类和组织方式虽然较为全面,但在某些特定领域的数据覆盖仍显不足,可能需要进一步的扩展和优化。
常用场景
经典使用场景
Awesome Public Datasets 作为一个广泛收集和整理公共数据源的资源库,其经典使用场景涵盖了多个学科领域的数据分析。例如,在生物学领域,研究人员可以利用1000 Genomes项目的数据进行基因组学研究;在气候学领域,NASA的全球图像浏览服务数据可用于气候变化分析。这些数据集为跨学科研究提供了丰富的数据支持,推动了科学研究的深入发展。
衍生相关工作
Awesome Public Datasets 的广泛使用催生了许多经典的研究工作。例如,基于1000 Genomes项目的数据,研究人员发表了大量关于人类基因组多样性和疾病关联的研究论文;利用Stanford Large Network Dataset Collection,学者们提出了多种网络分析算法和模型。这些衍生工作不仅推动了相关领域的学术进展,还为未来的研究提供了宝贵的参考和借鉴。
数据集最近研究
最新研究方向
近年来,Awesome Public Datasets在多个领域的研究方向呈现出多样化和前沿化的趋势。在生物学领域,1000 Genomes和Human Microbiome Project等数据集推动了基因组学和微生物组学的深入研究,特别是在个性化医疗和疾病预防方面的应用。气候与天气数据集如NASA Global Imagery Browse Services和NOAA Climate Datasets,为气候变化模型和极端天气预测提供了重要支持,助力全球气候政策的制定。在复杂网络领域,Stanford Large Network Dataset Collection和The Koblenz Network Collection等数据集为社交网络分析、推荐系统和网络安全研究提供了丰富的数据资源。此外,机器学习和自然语言处理领域的数据集如UCI Machine Learning Repository和Google Books Ngrams,推动了深度学习模型和语言模型的快速发展,特别是在文本生成和情感分析方面的应用。这些数据集的研究不仅推动了科学技术的进步,也为解决全球性挑战提供了数据支持。
以上内容由遇见数据集搜集并总结生成



