Awesome Public Datasets
收藏github2020-09-09 更新2024-05-31 收录
下载链接:
https://github.com/0x0all/awesome-public-datasets
下载链接
链接失效反馈官方服务:
资源简介:
这是一个包含互联网上大规模公共数据源的精选列表,数据集涵盖农业、生物学、气候/天气、复杂网络等多个领域。
This is a curated list of large-scale public data sources available on the internet, encompassing various fields such as agriculture, biology, climate/weather, complex networks, and more.
创建时间:
2015-04-21
原始信息汇总
数据集概述
农业
- U.S. Department of Agricultures PLANTS Database: 提供美国农业部的植物数据库。
生物学
- 1000 Genomes: 提供基因组数据。
- Collaborative Research in Computational Neuroscience (CRCNS): 提供计算神经科学研究数据。
- Gene Expression Omnibus (GEO): 提供基因表达数据。
- Human Microbiome Project (HMP): 提供人类微生物组项目数据。
- MIT Cancer Genomics Data: 提供癌症基因组数据。
- Protein Data Bank: 提供蛋白质数据库。
- PubChem Project: 提供化学信息数据库。
- Stanford Microarray Data: 提供微阵列数据。
- UCSC Public Data: 提供公共基因组数据。
气候/天气
- Australian Weather: 提供澳大利亚天气数据。
- Canadian Meteorological Centre: 提供加拿大气象中心数据。
- Global Climate Data Since 1929: 提供自1929年以来的全球气候数据。
- NOAA Climate Datasets: 提供美国国家海洋和大气管理局的气候数据集。
- WU Historical Weather Worldwide: 提供全球历史天气数据。
复杂网络
- CrossRef DOI URLs: 提供DOI链接数据。
- DBLP Citation dataset: 提供计算机科学文献引用数据。
- NIST complex networks data collection: 提供复杂网络数据集。
- Protein-protein interaction network: 提供蛋白质相互作用网络数据。
- Stanford Large Network Dataset Collection: 提供大型网络数据集。
计算机网络
- 3.5B Web Pages from CommonCraw 2012: 提供2012年CommonCraw的35亿网页数据。
- 53.5B Web clicks of 100K users in Indiana Univ.: 提供印第安纳大学10万用户的535亿网页点击数据。
- CAIDA Internet Datasets: 提供互联网数据集。
- CommonCrawl Web Data over 7 years: 提供过去7年的CommonCrawl网页数据。
数据挑战
- Challenges in Machine Learning: 提供机器学习挑战数据。
- D4D Challenge of Orange: 提供Orange的D4D挑战数据。
- Kaggle Competition Data: 提供Kaggle竞赛数据。
- Netflix Prize: 提供Netflix奖数据。
经济学
- American Economic Ass (AEA): 提供美国经济协会数据。
- EconData from UMD: 提供马里兰大学经济数据。
- Internet Product Code Database: 提供互联网产品代码数据库。
能源
- AMPds: 提供能源数据集。
- BLUEd: 提供建筑能源数据。
- COMBED: 提供能源数据集。
- Dataport: 提供能源数据平台。
- ECO: 提供能源消耗数据。
- EIA: 提供能源信息数据。
- HFED: 提供家庭能源数据。
- iAWE: 提供能源数据集。
- Plaid: 提供能源数据集。
- REDD: 提供住宅能源使用数据。
- UK-Dale: 提供英国能源数据。
金融
- CBOE Futures Exchange: 提供芝加哥期权交易所期货数据。
- Google Finance: 提供谷歌财经数据。
- NASDAQ: 提供纳斯达克数据。
- OANDA: 提供外汇数据。
- Quandl: 提供金融和经济数据。
- St Louis Federal: 提供圣路易斯联邦储备银行数据。
- Yahoo Finance: 提供雅虎财经数据。
地理空间/GIS
- BODC - marine data of ~22K vars: 提供海洋数据。
- Cambridge, MA, US, GIS data on GitHub: 提供马萨诸塞州剑桥市的GIS数据。
- EOSDIS - NASAs earth observing system data: 提供NASA地球观测系统数据。
- Factual Global Location Data: 提供全球位置数据。
- GeoNames Worldwide: 提供全球地理名称数据。
- Global Administrative Areas Database (GADM): 提供全球行政区域数据库。
- Landsat 8 on AWS: 提供AWS上的Landsat 8数据。
- Open Street Map (OSM): 提供开放街道地图数据。
- TIGER/Line - U.S. boundaries and roads: 提供美国边界和道路数据。
- TwoFishes - Foursquares coarse geocoder: 提供Foursquare的粗略地理编码器数据。
- World countries in multiple formats: 提供多种格式的世界国家数据。
政府
- Australia (abs.gov.au): 提供澳大利亚政府数据。
- Australia (data.gov.au): 提供澳大利亚政府开放数据。
- Brazil: 提供巴西政府数据。
- Canada: 提供加拿大政府数据。
- Chicago: 提供芝加哥市政府数据。
- Dallas Open Data: 提供达拉斯开放数据。
- Denver Open Data: 提供丹佛开放数据。
- England LGInform: 提供英格兰地方政府信息。
- EuroStat: 提供欧洲统计局数据。
- FedStats: 提供联邦统计数据。
- Finland: 提供芬兰政府数据。
- France: 提供法国政府数据。
- Germany: 提供德国政府数据。
- Glasgow, Scotland, UK: 提供苏格兰格拉斯哥市政府数据。
- Indian Government Data: 提供印度政府数据。
- London Datastore, UK: 提供伦敦数据存储。
- MassGIS, Massachusetts, U.S.: 提供马萨诸塞州地理信息系统数据。
- Netherlands: 提供荷兰政府数据。
- New Zealand: 提供新西兰政府数据。
- NYC betanyc: 提供纽约市数据。
- NYC Open Data: 提供纽约市开放数据。
- OECD: 提供经济合作与发展组织数据。
- Open Government Data (OGD) Platform India: 提供印度开放政府数据平台。
- San Francisco Data sets: 提供旧金山数据集。
- Seattle: 提供西雅图市政府数据。
- South Africa: 提供南非政府数据。
- The World Bank: 提供世界银行数据。
- U.K. Government Data: 提供英国政府数据。
- U.S. American Community Survey: 提供美国社区调查数据。
- U.S. CDC Public Health datasets: 提供美国疾病控制与预防中心公共卫生数据集。
- U.S. Census Bureau: 提供美国人口普查局数据。
- U.S. National Center for Education Statistics (NCES): 提供美国国家教育统计中心数据。
- U.S. Department of Housing and Urban Development (HUD): 提供美国住房和城市发展部数据。
- U.S. Federal Government Agencies: 提供美国联邦政府机构数据。
- U.S. Federal Government Data Catalog: 提供美国联邦政府数据目录。
- U.S. Food and Drug Administration (FDA): 提供美国食品药品监督管理局数据。
- U.S. Open Government: 提供美国开放政府数据。
- UK 2011 Census Open Atlas Project: 提供英国2011年人口普查开放地图项目数据。
- United Nations: 提供联合国数据。
医疗保健
- EHDP Large Health Data Sets: 提供大型健康数据集。
- Gapminder World, demographic databases: 提供人口统计数据库。
- Medicare Coverage Database (MCD), U.S.: 提供美国医疗保险覆盖数据库。
- Medicare Data Engine of medicare.gov Data: 提供医疗保险数据引擎。
- Medicare Data File: 提供医疗保险数据文件。
- Number of Ebola Cases and Deaths in Affected Countries (2014): 提供2014年受影响国家的埃博拉病例和死亡数据。
图像处理
- 10k US Adult Faces Database: 提供10,000美国成人面部数据库。
- 2GB of Photos of Cats: 提供2GB的猫照片数据。
- Affective Image Classification: 提供情感图像分类数据。
- Face Recognition Benchmark: 提供面部识别基准数据。
- ImageNet (in WordNet hierarchy): 提供图像网数据。
- International Affective Picture System, UFL: 提供国际情感图片系统数据。
- Massive Visual Memory Stimuli, MIT: 提供大规模视觉记忆刺激数据。
- SUN database, MIT: 提供SUN数据库数据。
机器学习
- Delve Datasets for classification and regression (Univ. of Toronto): 提供分类和回归数据集。
- Discogs Monthly Data: 提供Discogs每月数据。
- eBay Online Auctions (2012): 提供2012年eBay在线拍卖数据。
- IMDb Database: 提供IMDb数据库。
- Keel Repository for classification, regression and time series: 提供分类、回归和时间序列数据存储库。
- Lending Club Loan Data: 提供Lending Club贷款数据。
- Machine Learning Data Set Repository: 提供机器学习数据集存储库。
- Million Song Dataset: 提供百万歌曲数据集。
- More Song Datasets: 提供更多歌曲数据集。
- MovieLens Data Sets: 提供MovieLens数据集。
- RDataMining - "R and Data Mining" ebook data: 提供“R与数据挖掘”电子书数据。
- Registered Meteorites on Earth: 提供地球上注册的陨石数据。
- Restaurants Health Score Data in San Francisco: 提供旧金山餐厅健康评分数据。
- UCI Machine Learning Repository: 提供UCI机器学习存储库。
- Yahoo! Ratings and Classification Data: 提供雅虎评级和分类数据。
博物馆
- Cooper-Hewitts Collection Database: 提供Cooper-Hewitt收藏数据库。
- Minneapolis Institute of Arts metadata: 提供明尼阿波利斯艺术学院元数据。
- Tate Collection metadata: 提供泰特收藏元数据。
- The Getty vocabularies: 提供Getty词汇表。
自然语言
- Blogger Corpus: 提供博客语料库。
- ClueWeb09 FACC: 提供ClueWeb09 FACC数据。
- ClueWeb12 FACC: 提供ClueWeb12 FACC数据。
- DBpedia - 4.58M things with 583M facts: 提供DBpedia数据。
- Flickr Personal Taxonomies: 提供Flickr个人分类法。
- Google Books Ngrams (2.2TB): 提供Google图书Ngrams数据。
- Google Web 5gram (1TB, 2006): 提供Google网页5gram数据。
- Gutenberg eBooks List: 提供古腾堡电子书列表。
- Hansards text chunks of Canadian Parliament: 提供加拿大议会Hansard文本块。
- Machine Translation of European languages: 提供欧洲语言机器翻译数据。
- SMS Spam Collection in English: 提供英文短信垃圾邮件收集。
- USENET postings corpus of 2005~2011: 提供2005至2011年的USENET帖子语料库。
- Wikidata - Wikipedia databases: 提供Wikidata数据。
- Wikipedia Links data - 40 Million Entities in Context: 提供维基百科链接数据。
- WordNet databases and tools: 提供WordNet数据库和工具。
物理
- CERN Open Data Portal: 提供CERN开放数据门户。
- NSSDC (NASA) data of 550 space spacecraft: 提供NASA NSSDC的550个太空航天器数据。
公共领域
- Amazon: 提供亚马逊数据集。
- Archive.org Datasets: 提供Archive.org数据集。
- CMU JASA data archive: 提供卡内基梅隆大学JASA数据档案。
- CMU StatLab collections: 提供卡内基梅隆大学StatLab集合。
- Data360: 提供Data360数据。
- Datamob.org: 提供Datamob.org数据集。
- Google: 提供谷歌公共数据。
- Infochimps: 提供Infochimps数据。
- KDNuggets Data Collections: 提供KDNuggets数据集合。
- Numbray: 提供Numbray数据。
- Reddit Datasets: 提供Reddit数据集。
- RevolutionAnalytics Collection: 提供Revolution Analytics集合。
- Sample R data sets: 提供R语言示例数据集。
- Stats4Stem R data sets: 提供Stats4Stem R数据集。
- StatSci.org: 提供StatSci.org数据集。
- The Washington Post List: 提供华盛顿邮报列表。
- UCLA SOCR data collection: 提供UCLA SOCR数据集合。
- UFO Reports: 提供UFO报告。
- Wikileaks 911 pager intercepts: 提供Wikileaks 911寻呼机拦截数据。
- Yahoo Webscope: 提供雅虎Webscope数据。
搜索引擎
- Academic Torrents of data sharing from UMB: 提供UMB的学术数据共享洪流。
- Archive-it from Internet Archive: 提供Internet Archive的Archive-it。
- Datahub.io: 提供Datahub.io数据集。
- DataMarket (Qlik): 提供DataMarket数据。
- Freebase.com of people, places, and things: 提供Freebase.com的人物、地点和事物数据。
- Harvard Dataverse Network of scientific data: 提供哈佛数据虚拟网络科学数据。
- ICPSR (UMICH): 提供密歇根大学ICPSR数据。
- Open Data Certificates (beta): 提供开放数据证书(测试版)。
- Statista.com - statistics and Studies: 提供Statista.com的统计和研究数据。
社会科学
- Ancestry.com Forum Dataset over 10 years: 提供Ancestry.com论坛数据集。
- CMU Enron Email of 150 users: 提供卡内基梅隆大学Enron电子邮件数据。
- Facebook Data Scrape (2005): 提供2005年Facebook数据抓取。
- Facebook Social Networks from LAW (since 2007): 提供自2007年以来的Facebook社交网络数据。
- Foursquare Social Network in 2010, 2011: 提供2010年和2011年的Foursquare社交网络数据。
- Foursquare from UMN/Sarwat (2013): 提供2013年UMN/Sarwat的Foursquare数据。
- General Social Survey (GSS) since 1972: 提供自1972年以来的综合社会调查数据。
- GetGlue - users rating TV shows: 提供GetGlue用户对电视节目的评分数据。
- GitHub Collaboration Archive: 提供GitHub协作档案。
- MIT Reality Mining Dataset: 提供麻省理工学院现实挖掘数据集。
- Mobile Social Networks from UMASS: 提供马萨诸塞大学的移动社交网络数据。
- PewResearch Internet Survey Project: 提供Pew Research互联网调查项目数据。
- SourceForge.net Research Data: 提供SourceForge.net研究数据。
- StackExchange Data Explorer: 提供StackExchange数据探索器。
- Titanic Survival Data Set: 提供泰坦尼克号生存数据集。
- Twitter Graph of entire Twitter site: 提供整个Twitter站点的图数据。
- UCBs Archive of Social Science Data (D-Lab): 提供加州大学伯克利分校社会科学数据档案(D-Lab)。
- UCLA Social Sciences Data Archive: 提供UCLA社会科学数据档案。
- UNIMI/LAW Social Network Datasets: 提供UNIMI/LAW社交网络数据集。
- Universities Worldwide: 提供全球大学数据。
- UPJOHN for Labor Employment Research: 提供UPJOHN劳动就业研究数据。
- Yahoo! Graph and Social Data: 提供雅虎图和社会数据。
- Youtube Video Social Graph in 2007,2008: 提供2007年和2008年YouTube视频社交图数据。
- Google Scholar citation relations: 提供Google Scholar引用关系数据。
- Political Polarity Data: 提供政治极化数据。
体育
- Betfair Historical Exchange Data: 提供Betfair历史交换数据。
- Cricsheet Matches (cricket): 提供板球比赛数据。
- Ergast Formula 1, from 1950 up to date (API): 提供从1950年至今的F1数据API。
- Football/Soccer resouces (data and APIs): 提供足球/足球数据和API资源。
- Lahmans Baseball Database: 提供Lahman的棒球数据库。
搜集汇总
数据集介绍

构建方式
Awesome Public Datasets 数据集通过整合来自博客、问答平台以及用户反馈的公开数据源构建而成。这些数据源涵盖了多个领域,包括农业、生物学、气候、复杂网络、计算机网络等。数据集中的大部分数据是免费的,但也有部分数据需要付费获取。构建过程中,数据源经过筛选和整理,以确保其可靠性和实用性。
特点
该数据集的特点在于其广泛的数据覆盖范围和多样化的数据来源。它不仅包含了来自政府机构、研究机构和企业的数据,还涵盖了多个学科领域的数据集。数据集的结构清晰,按领域分类,便于用户快速找到所需的数据。此外,数据集中的每个数据源都附有详细的链接和描述,帮助用户了解数据的背景和使用方法。
使用方法
用户可以通过访问 Awesome Public Datasets 的 GitHub 页面,浏览按领域分类的数据源列表。每个数据源都附有链接,用户可以直接点击链接访问原始数据。对于需要进一步处理的数据,用户可以根据数据源提供的描述和文档进行下载和分析。数据集的使用场景广泛,适用于学术研究、数据分析和机器学习等领域。用户还可以通过 GitHub 页面提供的其他资源链接,探索更多相关的数据集和工具。
背景与挑战
背景概述
Awesome Public Datasets 是一个广泛收集和整理公共数据源的资源库,涵盖了从农业、生物学到气候、计算机网络等多个领域的数据集。该数据集由GitHub用户caesar0301创建,旨在为研究人员、数据科学家和开发者提供一个便捷的公共数据访问平台。其数据来源多样,包括博客、用户反馈和公开数据源,部分数据集为免费提供,部分则需付费。该资源库的创建极大地促进了跨学科研究,尤其是在数据驱动的科学研究和机器学习领域,为学术界和工业界提供了丰富的数据支持。
当前挑战
Awesome Public Datasets 面临的主要挑战包括数据集的多样性和质量不一致问题。由于数据来源广泛,部分数据集可能存在格式不统一、数据缺失或更新不及时的情况,这为数据预处理和分析带来了额外的复杂性。此外,尽管大多数数据集为免费提供,但部分数据集的使用权限和许可协议可能限制其广泛应用。在构建过程中,如何确保数据的准确性和时效性,以及如何有效整合来自不同领域的数据源,也是该数据集面临的重要挑战。
常用场景
经典使用场景
Awesome Public Datasets 数据集广泛应用于多个学术领域,尤其是在数据科学和机器学习的研究中。研究者们常利用该数据集中的公开数据源进行模型训练和验证,特别是在自然语言处理、图像识别和复杂网络分析等领域。通过整合来自不同领域的公开数据集,研究者能够更全面地验证其算法的普适性和鲁棒性。
衍生相关工作
Awesome Public Datasets 衍生了许多经典的研究工作,尤其是在机器学习和数据挖掘领域。例如,基于该数据集中的图像数据,研究者开发了多种图像分类和识别算法;利用其中的社交网络数据,研究者提出了多种社交网络分析模型。此外,该数据集还促进了多个开源工具和平台的开发,如数据可视化工具和机器学习框架,进一步推动了数据科学领域的发展。
数据集最近研究
最新研究方向
近年来,Awesome Public Datasets作为涵盖多个领域的综合性公开数据集集合,逐渐成为数据科学和机器学习研究的重要资源。特别是在生物学、气候学和复杂网络分析等领域,该数据集为研究者提供了丰富的数据支持。例如,生物学领域的1000 Genomes和Human Microbiome Project数据集,推动了基因组学和微生物组学的前沿研究;气候学领域的NASA Global Imagery Browse Services和NOAA Climate Datasets则为气候变化建模和预测提供了关键数据。此外,复杂网络分析领域的Stanford Large Network Dataset Collection和The Koblenz Network Collection,为社交网络、蛋白质相互作用网络等研究提供了重要基础。这些数据集的应用不仅加速了科学研究的进展,也为解决全球性挑战如气候变化、疾病防控等提供了数据驱动的解决方案。
以上内容由遇见数据集搜集并总结生成



