five

Awesome Public Datasets

收藏
github2020-09-09 更新2024-05-31 收录
下载链接:
https://github.com/0x0all/awesome-public-datasets
下载链接
链接失效反馈
官方服务:
资源简介:
这是一个包含互联网上大规模公共数据源的精选列表,数据集涵盖农业、生物学、气候/天气、复杂网络等多个领域。

This is a curated list of large-scale public data sources available on the internet, encompassing various fields such as agriculture, biology, climate/weather, complex networks, and more.
创建时间:
2015-04-21
原始信息汇总

数据集概述

农业

  • U.S. Department of Agricultures PLANTS Database: 提供美国农业部的植物数据库。

生物学

  • 1000 Genomes: 提供基因组数据。
  • Collaborative Research in Computational Neuroscience (CRCNS): 提供计算神经科学研究数据。
  • Gene Expression Omnibus (GEO): 提供基因表达数据。
  • Human Microbiome Project (HMP): 提供人类微生物组项目数据。
  • MIT Cancer Genomics Data: 提供癌症基因组数据。
  • Protein Data Bank: 提供蛋白质数据库。
  • PubChem Project: 提供化学信息数据库。
  • Stanford Microarray Data: 提供微阵列数据。
  • UCSC Public Data: 提供公共基因组数据。

气候/天气

  • Australian Weather: 提供澳大利亚天气数据。
  • Canadian Meteorological Centre: 提供加拿大气象中心数据。
  • Global Climate Data Since 1929: 提供自1929年以来的全球气候数据。
  • NOAA Climate Datasets: 提供美国国家海洋和大气管理局的气候数据集。
  • WU Historical Weather Worldwide: 提供全球历史天气数据。

复杂网络

  • CrossRef DOI URLs: 提供DOI链接数据。
  • DBLP Citation dataset: 提供计算机科学文献引用数据。
  • NIST complex networks data collection: 提供复杂网络数据集。
  • Protein-protein interaction network: 提供蛋白质相互作用网络数据。
  • Stanford Large Network Dataset Collection: 提供大型网络数据集。

计算机网络

  • 3.5B Web Pages from CommonCraw 2012: 提供2012年CommonCraw的35亿网页数据。
  • 53.5B Web clicks of 100K users in Indiana Univ.: 提供印第安纳大学10万用户的535亿网页点击数据。
  • CAIDA Internet Datasets: 提供互联网数据集。
  • CommonCrawl Web Data over 7 years: 提供过去7年的CommonCrawl网页数据。

数据挑战

  • Challenges in Machine Learning: 提供机器学习挑战数据。
  • D4D Challenge of Orange: 提供Orange的D4D挑战数据。
  • Kaggle Competition Data: 提供Kaggle竞赛数据。
  • Netflix Prize: 提供Netflix奖数据。

经济学

  • American Economic Ass (AEA): 提供美国经济协会数据。
  • EconData from UMD: 提供马里兰大学经济数据。
  • Internet Product Code Database: 提供互联网产品代码数据库。

能源

  • AMPds: 提供能源数据集。
  • BLUEd: 提供建筑能源数据。
  • COMBED: 提供能源数据集。
  • Dataport: 提供能源数据平台。
  • ECO: 提供能源消耗数据。
  • EIA: 提供能源信息数据。
  • HFED: 提供家庭能源数据。
  • iAWE: 提供能源数据集。
  • Plaid: 提供能源数据集。
  • REDD: 提供住宅能源使用数据。
  • UK-Dale: 提供英国能源数据。

金融

  • CBOE Futures Exchange: 提供芝加哥期权交易所期货数据。
  • Google Finance: 提供谷歌财经数据。
  • NASDAQ: 提供纳斯达克数据。
  • OANDA: 提供外汇数据。
  • Quandl: 提供金融和经济数据。
  • St Louis Federal: 提供圣路易斯联邦储备银行数据。
  • Yahoo Finance: 提供雅虎财经数据。

地理空间/GIS

  • BODC - marine data of ~22K vars: 提供海洋数据。
  • Cambridge, MA, US, GIS data on GitHub: 提供马萨诸塞州剑桥市的GIS数据。
  • EOSDIS - NASAs earth observing system data: 提供NASA地球观测系统数据。
  • Factual Global Location Data: 提供全球位置数据。
  • GeoNames Worldwide: 提供全球地理名称数据。
  • Global Administrative Areas Database (GADM): 提供全球行政区域数据库。
  • Landsat 8 on AWS: 提供AWS上的Landsat 8数据。
  • Open Street Map (OSM): 提供开放街道地图数据。
  • TIGER/Line - U.S. boundaries and roads: 提供美国边界和道路数据。
  • TwoFishes - Foursquares coarse geocoder: 提供Foursquare的粗略地理编码器数据。
  • World countries in multiple formats: 提供多种格式的世界国家数据。

政府

  • Australia (abs.gov.au): 提供澳大利亚政府数据。
  • Australia (data.gov.au): 提供澳大利亚政府开放数据。
  • Brazil: 提供巴西政府数据。
  • Canada: 提供加拿大政府数据。
  • Chicago: 提供芝加哥市政府数据。
  • Dallas Open Data: 提供达拉斯开放数据。
  • Denver Open Data: 提供丹佛开放数据。
  • England LGInform: 提供英格兰地方政府信息。
  • EuroStat: 提供欧洲统计局数据。
  • FedStats: 提供联邦统计数据。
  • Finland: 提供芬兰政府数据。
  • France: 提供法国政府数据。
  • Germany: 提供德国政府数据。
  • Glasgow, Scotland, UK: 提供苏格兰格拉斯哥市政府数据。
  • Indian Government Data: 提供印度政府数据。
  • London Datastore, UK: 提供伦敦数据存储。
  • MassGIS, Massachusetts, U.S.: 提供马萨诸塞州地理信息系统数据。
  • Netherlands: 提供荷兰政府数据。
  • New Zealand: 提供新西兰政府数据。
  • NYC betanyc: 提供纽约市数据。
  • NYC Open Data: 提供纽约市开放数据。
  • OECD: 提供经济合作与发展组织数据。
  • Open Government Data (OGD) Platform India: 提供印度开放政府数据平台。
  • San Francisco Data sets: 提供旧金山数据集。
  • Seattle: 提供西雅图市政府数据。
  • South Africa: 提供南非政府数据。
  • The World Bank: 提供世界银行数据。
  • U.K. Government Data: 提供英国政府数据。
  • U.S. American Community Survey: 提供美国社区调查数据。
  • U.S. CDC Public Health datasets: 提供美国疾病控制与预防中心公共卫生数据集。
  • U.S. Census Bureau: 提供美国人口普查局数据。
  • U.S. National Center for Education Statistics (NCES): 提供美国国家教育统计中心数据。
  • U.S. Department of Housing and Urban Development (HUD): 提供美国住房和城市发展部数据。
  • U.S. Federal Government Agencies: 提供美国联邦政府机构数据。
  • U.S. Federal Government Data Catalog: 提供美国联邦政府数据目录。
  • U.S. Food and Drug Administration (FDA): 提供美国食品药品监督管理局数据。
  • U.S. Open Government: 提供美国开放政府数据。
  • UK 2011 Census Open Atlas Project: 提供英国2011年人口普查开放地图项目数据。
  • United Nations: 提供联合国数据。

医疗保健

  • EHDP Large Health Data Sets: 提供大型健康数据集。
  • Gapminder World, demographic databases: 提供人口统计数据库。
  • Medicare Coverage Database (MCD), U.S.: 提供美国医疗保险覆盖数据库。
  • Medicare Data Engine of medicare.gov Data: 提供医疗保险数据引擎。
  • Medicare Data File: 提供医疗保险数据文件。
  • Number of Ebola Cases and Deaths in Affected Countries (2014): 提供2014年受影响国家的埃博拉病例和死亡数据。

图像处理

  • 10k US Adult Faces Database: 提供10,000美国成人面部数据库。
  • 2GB of Photos of Cats: 提供2GB的猫照片数据。
  • Affective Image Classification: 提供情感图像分类数据。
  • Face Recognition Benchmark: 提供面部识别基准数据。
  • ImageNet (in WordNet hierarchy): 提供图像网数据。
  • International Affective Picture System, UFL: 提供国际情感图片系统数据。
  • Massive Visual Memory Stimuli, MIT: 提供大规模视觉记忆刺激数据。
  • SUN database, MIT: 提供SUN数据库数据。

机器学习

  • Delve Datasets for classification and regression (Univ. of Toronto): 提供分类和回归数据集。
  • Discogs Monthly Data: 提供Discogs每月数据。
  • eBay Online Auctions (2012): 提供2012年eBay在线拍卖数据。
  • IMDb Database: 提供IMDb数据库。
  • Keel Repository for classification, regression and time series: 提供分类、回归和时间序列数据存储库。
  • Lending Club Loan Data: 提供Lending Club贷款数据。
  • Machine Learning Data Set Repository: 提供机器学习数据集存储库。
  • Million Song Dataset: 提供百万歌曲数据集。
  • More Song Datasets: 提供更多歌曲数据集。
  • MovieLens Data Sets: 提供MovieLens数据集。
  • RDataMining - "R and Data Mining" ebook data: 提供“R与数据挖掘”电子书数据。
  • Registered Meteorites on Earth: 提供地球上注册的陨石数据。
  • Restaurants Health Score Data in San Francisco: 提供旧金山餐厅健康评分数据。
  • UCI Machine Learning Repository: 提供UCI机器学习存储库。
  • Yahoo! Ratings and Classification Data: 提供雅虎评级和分类数据。

博物馆

  • Cooper-Hewitts Collection Database: 提供Cooper-Hewitt收藏数据库。
  • Minneapolis Institute of Arts metadata: 提供明尼阿波利斯艺术学院元数据。
  • Tate Collection metadata: 提供泰特收藏元数据。
  • The Getty vocabularies: 提供Getty词汇表。

自然语言

  • Blogger Corpus: 提供博客语料库。
  • ClueWeb09 FACC: 提供ClueWeb09 FACC数据。
  • ClueWeb12 FACC: 提供ClueWeb12 FACC数据。
  • DBpedia - 4.58M things with 583M facts: 提供DBpedia数据。
  • Flickr Personal Taxonomies: 提供Flickr个人分类法。
  • Google Books Ngrams (2.2TB): 提供Google图书Ngrams数据。
  • Google Web 5gram (1TB, 2006): 提供Google网页5gram数据。
  • Gutenberg eBooks List: 提供古腾堡电子书列表。
  • Hansards text chunks of Canadian Parliament: 提供加拿大议会Hansard文本块。
  • Machine Translation of European languages: 提供欧洲语言机器翻译数据。
  • SMS Spam Collection in English: 提供英文短信垃圾邮件收集。
  • USENET postings corpus of 2005~2011: 提供2005至2011年的USENET帖子语料库。
  • Wikidata - Wikipedia databases: 提供Wikidata数据。
  • Wikipedia Links data - 40 Million Entities in Context: 提供维基百科链接数据。
  • WordNet databases and tools: 提供WordNet数据库和工具。

物理

  • CERN Open Data Portal: 提供CERN开放数据门户。
  • NSSDC (NASA) data of 550 space spacecraft: 提供NASA NSSDC的550个太空航天器数据。

公共领域

  • Amazon: 提供亚马逊数据集。
  • Archive.org Datasets: 提供Archive.org数据集。
  • CMU JASA data archive: 提供卡内基梅隆大学JASA数据档案。
  • CMU StatLab collections: 提供卡内基梅隆大学StatLab集合。
  • Data360: 提供Data360数据。
  • Datamob.org: 提供Datamob.org数据集。
  • Google: 提供谷歌公共数据。
  • Infochimps: 提供Infochimps数据。
  • KDNuggets Data Collections: 提供KDNuggets数据集合。
  • Numbray: 提供Numbray数据。
  • Reddit Datasets: 提供Reddit数据集。
  • RevolutionAnalytics Collection: 提供Revolution Analytics集合。
  • Sample R data sets: 提供R语言示例数据集。
  • Stats4Stem R data sets: 提供Stats4Stem R数据集。
  • StatSci.org: 提供StatSci.org数据集。
  • The Washington Post List: 提供华盛顿邮报列表。
  • UCLA SOCR data collection: 提供UCLA SOCR数据集合。
  • UFO Reports: 提供UFO报告。
  • Wikileaks 911 pager intercepts: 提供Wikileaks 911寻呼机拦截数据。
  • Yahoo Webscope: 提供雅虎Webscope数据。

搜索引擎

  • Academic Torrents of data sharing from UMB: 提供UMB的学术数据共享洪流。
  • Archive-it from Internet Archive: 提供Internet Archive的Archive-it。
  • Datahub.io: 提供Datahub.io数据集。
  • DataMarket (Qlik): 提供DataMarket数据。
  • Freebase.com of people, places, and things: 提供Freebase.com的人物、地点和事物数据。
  • Harvard Dataverse Network of scientific data: 提供哈佛数据虚拟网络科学数据。
  • ICPSR (UMICH): 提供密歇根大学ICPSR数据。
  • Open Data Certificates (beta): 提供开放数据证书(测试版)。
  • Statista.com - statistics and Studies: 提供Statista.com的统计和研究数据。

社会科学

  • Ancestry.com Forum Dataset over 10 years: 提供Ancestry.com论坛数据集。
  • CMU Enron Email of 150 users: 提供卡内基梅隆大学Enron电子邮件数据。
  • Facebook Data Scrape (2005): 提供2005年Facebook数据抓取。
  • Facebook Social Networks from LAW (since 2007): 提供自2007年以来的Facebook社交网络数据。
  • Foursquare Social Network in 2010, 2011: 提供2010年和2011年的Foursquare社交网络数据。
  • Foursquare from UMN/Sarwat (2013): 提供2013年UMN/Sarwat的Foursquare数据。
  • General Social Survey (GSS) since 1972: 提供自1972年以来的综合社会调查数据。
  • GetGlue - users rating TV shows: 提供GetGlue用户对电视节目的评分数据。
  • GitHub Collaboration Archive: 提供GitHub协作档案。
  • MIT Reality Mining Dataset: 提供麻省理工学院现实挖掘数据集。
  • Mobile Social Networks from UMASS: 提供马萨诸塞大学的移动社交网络数据。
  • PewResearch Internet Survey Project: 提供Pew Research互联网调查项目数据。
  • SourceForge.net Research Data: 提供SourceForge.net研究数据。
  • StackExchange Data Explorer: 提供StackExchange数据探索器。
  • Titanic Survival Data Set: 提供泰坦尼克号生存数据集。
  • Twitter Graph of entire Twitter site: 提供整个Twitter站点的图数据。
  • UCBs Archive of Social Science Data (D-Lab): 提供加州大学伯克利分校社会科学数据档案(D-Lab)。
  • UCLA Social Sciences Data Archive: 提供UCLA社会科学数据档案。
  • UNIMI/LAW Social Network Datasets: 提供UNIMI/LAW社交网络数据集。
  • Universities Worldwide: 提供全球大学数据。
  • UPJOHN for Labor Employment Research: 提供UPJOHN劳动就业研究数据。
  • Yahoo! Graph and Social Data: 提供雅虎图和社会数据。
  • Youtube Video Social Graph in 2007,2008: 提供2007年和2008年YouTube视频社交图数据。
  • Google Scholar citation relations: 提供Google Scholar引用关系数据。
  • Political Polarity Data: 提供政治极化数据。

体育

  • Betfair Historical Exchange Data: 提供Betfair历史交换数据。
  • Cricsheet Matches (cricket): 提供板球比赛数据。
  • Ergast Formula 1, from 1950 up to date (API): 提供从1950年至今的F1数据API。
  • Football/Soccer resouces (data and APIs): 提供足球/足球数据和API资源。
  • Lahmans Baseball Database: 提供Lahman的棒球数据库。
搜集汇总
数据集介绍
main_image_url
构建方式
Awesome Public Datasets 数据集通过整合来自博客、问答平台以及用户反馈的公开数据源构建而成。这些数据源涵盖了多个领域,包括农业、生物学、气候、复杂网络、计算机网络等。数据集中的大部分数据是免费的,但也有部分数据需要付费获取。构建过程中,数据源经过筛选和整理,以确保其可靠性和实用性。
特点
该数据集的特点在于其广泛的数据覆盖范围和多样化的数据来源。它不仅包含了来自政府机构、研究机构和企业的数据,还涵盖了多个学科领域的数据集。数据集的结构清晰,按领域分类,便于用户快速找到所需的数据。此外,数据集中的每个数据源都附有详细的链接和描述,帮助用户了解数据的背景和使用方法。
使用方法
用户可以通过访问 Awesome Public Datasets 的 GitHub 页面,浏览按领域分类的数据源列表。每个数据源都附有链接,用户可以直接点击链接访问原始数据。对于需要进一步处理的数据,用户可以根据数据源提供的描述和文档进行下载和分析。数据集的使用场景广泛,适用于学术研究、数据分析和机器学习等领域。用户还可以通过 GitHub 页面提供的其他资源链接,探索更多相关的数据集和工具。
背景与挑战
背景概述
Awesome Public Datasets 是一个广泛收集和整理公共数据源的资源库,涵盖了从农业、生物学到气候、计算机网络等多个领域的数据集。该数据集由GitHub用户caesar0301创建,旨在为研究人员、数据科学家和开发者提供一个便捷的公共数据访问平台。其数据来源多样,包括博客、用户反馈和公开数据源,部分数据集为免费提供,部分则需付费。该资源库的创建极大地促进了跨学科研究,尤其是在数据驱动的科学研究和机器学习领域,为学术界和工业界提供了丰富的数据支持。
当前挑战
Awesome Public Datasets 面临的主要挑战包括数据集的多样性和质量不一致问题。由于数据来源广泛,部分数据集可能存在格式不统一、数据缺失或更新不及时的情况,这为数据预处理和分析带来了额外的复杂性。此外,尽管大多数数据集为免费提供,但部分数据集的使用权限和许可协议可能限制其广泛应用。在构建过程中,如何确保数据的准确性和时效性,以及如何有效整合来自不同领域的数据源,也是该数据集面临的重要挑战。
常用场景
经典使用场景
Awesome Public Datasets 数据集广泛应用于多个学术领域,尤其是在数据科学和机器学习的研究中。研究者们常利用该数据集中的公开数据源进行模型训练和验证,特别是在自然语言处理、图像识别和复杂网络分析等领域。通过整合来自不同领域的公开数据集,研究者能够更全面地验证其算法的普适性和鲁棒性。
衍生相关工作
Awesome Public Datasets 衍生了许多经典的研究工作,尤其是在机器学习和数据挖掘领域。例如,基于该数据集中的图像数据,研究者开发了多种图像分类和识别算法;利用其中的社交网络数据,研究者提出了多种社交网络分析模型。此外,该数据集还促进了多个开源工具和平台的开发,如数据可视化工具和机器学习框架,进一步推动了数据科学领域的发展。
数据集最近研究
最新研究方向
近年来,Awesome Public Datasets作为涵盖多个领域的综合性公开数据集集合,逐渐成为数据科学和机器学习研究的重要资源。特别是在生物学、气候学和复杂网络分析等领域,该数据集为研究者提供了丰富的数据支持。例如,生物学领域的1000 Genomes和Human Microbiome Project数据集,推动了基因组学和微生物组学的前沿研究;气候学领域的NASA Global Imagery Browse Services和NOAA Climate Datasets则为气候变化建模和预测提供了关键数据。此外,复杂网络分析领域的Stanford Large Network Dataset Collection和The Koblenz Network Collection,为社交网络、蛋白质相互作用网络等研究提供了重要基础。这些数据集的应用不仅加速了科学研究的进展,也为解决全球性挑战如气候变化、疾病防控等提供了数据驱动的解决方案。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作