awesome-public-datasets
收藏github2016-12-18 更新2024-05-31 收录
下载链接:
https://github.com/markfarrell/awesome-public-datasets
下载链接
链接失效反馈官方服务:
资源简介:
这是一个收集和整理自互联网的公共数据源列表,涵盖了多个领域的大规模数据集。
This is a compilation of publicly available data sources collected and organized from the internet, encompassing large-scale datasets across multiple domains.
创建时间:
2015-04-22
原始信息汇总
数据集概述
农业
- U.S. Department of Agricultures PLANTS Database
生物学
- 1000 Genomes
- Collaborative Research in Computational Neuroscience (CRCNS)
- Gene Expression Omnibus (GEO)
- Human Microbiome Project (HMP)
- American Gut (Microbiome Project)
- ICOS PSP Benchmark
- MIT Cancer Genomics Data
- NIH Microarray data (FTP)
- Protein Data Bank
- PubChem Project
- PubGene (now Coremine Medical)
- Stanford Microarray Data
- The Personal Genome Project
- UCSC Public Data
- UniGene
气候/天气
- Australian Weather
- Canadian Meteorological Centre
- Climate Data from UEA (updated monthly)
- Global Climate Data Since 1929
- NASA Global Imagery Browse Services
- NOAA Bering Sea Climate
- NOAA Climate Datasets
- NOAA Realtime Weather Models
- The World Bank Open Data Resources for Climate Change
- UEA Climatic Research Unit
- WU Historical Weather Worldwide
复杂网络
- CrossRef DOI URLs
- DBLP Citation dataset
- NBER Patent Citations
- NIST complex networks data collection
- Small Network Data
- UCI Network Data Repository
- Protein-protein interaction network
- PyPI and Maven Dependency Network
- Scopus Citation Database
- Stanford GraphBase (Steven Skiena)
- Stanford Large Network Dataset Collection
- The Koblenz Network Collection
- The Laboratory for Web Algorithmics (UNIMI)
- The Nexus Network Repository
- UCI Network Data Repository
- UFL sparse matrix collection
- WSU Graph Database
计算机网络
- 3.5B Web Pages from CommonCraw 2012
- 53.5B Web clicks of 100K users in Indiana Univ.
- CAIDA Internet Datasets
- ClueWeb09 - 1B web pages
- ClueWeb12 - 733M web pages
- CommonCrawl Web Data over 7 years
- CRAWDAD Wireless datasets from Dartmouth Univ.
- Criteo click-through data
- Open Mobile Data by MobiPerf
- UCSD Network Telescope, IPv4 /8 net
数据挑战
- Challenges in Machine Learning
- D4D Challenge of Orange
- DrivenData Competitions for Social Good
- ICWSM Data Challenge (since 2009)
- Kaggle Competition Data
- KDD Cup by Tencent 2012
- Localytics Data Visualization Challenge
- Netflix Prize
- Space Apps Challenge
- Telecom Italia Big Data Challenge
- Yelp Dataset Challenge
经济学
- American Economic Ass (AEA)
- EconData from UMD
- Internet Product Code Database
能源
- AMPds
- BLUEd
- COMBED
- Dataport
- ECO
- EIA
- HFED
- iAWE
- Plaid
- REDD
- UK-Dale
金融
- CBOE Futures Exchange
- Google Finance
- Google Trends
- 链接:[http://www.google.com/trends?q=google&ctab=0&geo=all&date=all&sort=0](http://www.google.com/trends?q=google&
搜集汇总
数据集介绍

构建方式
awesome-public-datasets 数据集通过整合来自博客、问答平台及用户反馈的公开数据源构建而成。其构建过程注重数据的多样性与广泛性,涵盖了农业、生物学、气候、复杂网络、计算机科学、经济学、能源、金融、地理信息系统、政府、医疗保健、图像处理、机器学习、博物馆、自然语言处理、物理学、公共领域、搜索引擎、社会科学及体育等多个领域。数据集中的大部分数据为免费提供,部分数据则需付费获取。
特点
该数据集的特点在于其广泛的覆盖范围和多样化的数据类型。它不仅包含了来自政府机构、科研院所和企业的权威数据,还涵盖了社交媒体、开源社区等非传统数据源。数据集的结构清晰,按领域分类,便于用户快速定位所需数据。此外,数据集中的许多资源均为实时更新,确保了数据的时效性和实用性。
使用方法
用户可通过访问 GitHub 页面获取数据集的详细列表,并根据需求选择相应的数据源进行下载或在线访问。数据集的使用方法因数据源而异,部分数据可直接通过链接下载,部分数据则需通过 API 或特定工具获取。建议用户在使用前仔细阅读数据源的使用说明,以确保数据的正确使用和合规性。对于需要付费的数据,用户需根据提供方的要求完成相应的购买流程。
背景与挑战
背景概述
awesome-public-datasets 是一个广泛收集和整理公共数据源的资源库,涵盖了从农业、生物学到气候、复杂网络、计算机网络、经济学、能源、金融、地理空间、政府、医疗保健、图像处理、机器学习、博物馆、自然语言处理、物理学、公共领域、搜索引擎、社会科学和体育等多个领域的数据集。该数据集由GitHub用户caesar0301创建,旨在为研究人员、数据科学家和开发者提供一个便捷的公共数据源集合,以支持各种数据驱动的研究和应用。其数据来源包括博客、用户反馈和公开数据平台,部分数据集为免费提供,部分则需要付费获取。该资源库的创建时间不详,但其持续更新和维护使其成为数据科学社区中的重要参考工具。
当前挑战
awesome-public-datasets 数据集面临的主要挑战包括数据源的多样性和数据质量的参差不齐。由于数据集涵盖了多个领域,数据格式、结构和标准各异,这为数据的整合和分析带来了复杂性。此外,部分数据集的更新频率较低,可能导致数据过时,影响研究的时效性。在构建过程中,数据收集和整理的难度较大,尤其是需要从不同来源获取数据并确保其准确性和一致性。另一个挑战是数据访问的权限问题,部分数据集可能需要付费或特定的许可协议,限制了其广泛使用。尽管该资源库为数据科学社区提供了丰富的资源,但其维护和扩展仍需克服这些技术和管理上的挑战。
常用场景
经典使用场景
awesome-public-datasets 数据集广泛应用于多个领域的研究与开发,尤其是在数据科学、机器学习和人工智能领域。研究者可以利用该数据集中的丰富资源,如基因表达数据、气候数据、社交网络数据等,进行跨学科的探索与分析。例如,生物学家可以通过1000 Genomes项目的数据进行基因组学研究,而气候学家则可以利用NASA的全球气候数据来预测气候变化趋势。
解决学术问题
该数据集为学术界提供了大量公开且高质量的数据资源,解决了数据获取难、数据质量参差不齐的问题。通过整合来自不同领域的数据,研究者能够更便捷地进行跨学科研究,推动了诸如基因组学、气候建模、社交网络分析等领域的发展。此外,数据集中的标准化数据格式和元数据描述,极大地方便了数据的复用与共享,促进了学术界的合作与创新。
衍生相关工作
该数据集衍生了许多经典的研究工作和技术应用。例如,基于1000 Genomes数据的基因组学研究推动了精准医学的发展;利用NASA气候数据的模型帮助预测了全球气候变化的影响;而社交网络数据的分析则为社交媒体平台的算法优化提供了依据。此外,许多机器学习竞赛(如Kaggle)也基于该数据集中的资源,推动了数据科学技术的进步。
以上内容由遇见数据集搜集并总结生成



