five

awesome-public-datasets

收藏
github2019-07-15 更新2024-05-31 收录
下载链接:
https://github.com/cybernetics/awesome-public-datasets
下载链接
链接失效反馈
官方服务:
资源简介:
一个包含高质量公开数据集的精选列表,涵盖多个领域,如农业、生物学、气候/天气、复杂网络等。

A curated list of high-quality public datasets spanning multiple domains, including agriculture, biology, climate/weather, complex networks, and more.
创建时间:
2015-10-11
原始信息汇总

数据集概述

农业

  • U.S. Department of Agricultures PLANTS Database: 提供美国农业部的植物数据库。

生物学

  • 1000 Genomes: 提供人类基因组数据。
  • American Gut (Microbiome Project): 美国肠道项目,研究微生物组。
  • Collaborative Research in Computational Neuroscience (CRCNS): 计算神经科学合作研究数据集。
  • Gene Expression Omnibus (GEO): 基因表达数据库。
  • Human Microbiome Project (HMP): 人类微生物组项目数据。
  • ICOS PSP Benchmark: 蛋白质结构预测基准数据。
  • MIT Cancer Genomics Data: 麻省理工学院癌症基因组数据。
  • NIH Microarray data (FTP): 美国国立卫生研究院微阵列数据。
  • OpenSNP genotypes data: 开放的基因型数据。
  • Pathguid: Protein-Protein Interactions Catalog: 蛋白质相互作用目录。
  • Protein Data Bank: 蛋白质数据库。
  • PubChem Project: 公共化学数据库。
  • PubGene (now Coremine Medical): 医学相关的基因数据库。
  • Stanford Microarray Data: 斯坦福微阵列数据。
  • The Personal Genome Project: 个人基因组项目数据。
  • UCSC Public Data: 加州大学圣克鲁兹分校公共数据。
  • UniGene: 基因序列数据库。

气候/天气

  • Australian Weather: 澳大利亚天气数据。
  • Brazilian Weather - Historical data: 巴西历史天气数据。
  • Canadian Meteorological Centre: 加拿大气象中心数据。
  • Climate Data from UEA: 东英吉利大学气候数据。
  • Global Climate Data Since 1929: 1929年以来的全球气候数据。
  • NASA Global Imagery Browse Services: 美国宇航局全球图像浏览服务。
  • NOAA Bering Sea Climate: 美国国家海洋和大气管理局白令海气候数据。
  • NOAA Climate Datasets: 美国国家海洋和大气管理局气候数据集。
  • NOAA Realtime Weather Models: 美国国家海洋和大气管理局实时天气模型。
  • The World Bank Open Data Resources for Climate Change: 世界银行气候变化开放数据资源。
  • UEA Climatic Research Unit: 东英吉利大学气候研究中心数据。
  • WU Historical Weather Worldwide: 世界历史天气数据。

复杂网络

  • CrossRef DOI URLs: 学术出版物的DOI链接。
  • DBLP Citation dataset: 计算机科学文献引用数据集。
  • NBER Patent Citations: 国家经济研究局专利引用数据。
  • NIST complex networks data collection: 美国国家标准与技术研究院复杂网络数据集。
  • Protein-protein interaction network: 蛋白质相互作用网络数据。
  • PyPI and Maven Dependency Network: Python包和Maven依赖网络数据。
  • Scopus Citation Database: 斯高帕斯引用数据库。
  • Small Network Data: 小型网络数据集。
  • Stanford GraphBase (Steven Skiena): 斯坦福图基数据集。
  • Stanford Large Network Dataset Collection: 斯坦福大型网络数据集。
  • The Koblenz Network Collection: 科布伦茨网络数据集。
  • The Laboratory for Web Algorithmics (UNIMI): 米兰大学网络算法实验室数据集。
  • The Nexus Network Repository: 网络存储库。
  • UCI Network Data Repository: 加州大学欧文分校网络数据存储库。
  • UFL sparse matrix collection: 佛罗里达大学稀疏矩阵数据集。
  • WSU Graph Database: 华盛顿州立大学图数据库。

计算机网络

  • 3.5B Web Pages from CommonCraw 2012: 2012年CommonCraw的35亿网页数据。
  • 53.5B Web clicks of 100K users in Indiana Univ.: 印第安纳大学10万用户的535亿网络点击数据。
  • CAIDA Internet Datasets: 互联网数据分析协会数据集。
  • ClueWeb09 - 1B web pages: ClueWeb09的10亿网页数据。
  • ClueWeb12 - 733M web pages: ClueWeb12的7.33亿网页数据。
  • CommonCrawl Web Data over 7 years: 7年间的CommonCrawl网络数据。
  • CRAWDAD Wireless datasets from Dartmouth Univ.: 达特茅斯大学的无线数据集。
  • Criteo click-through data: Criteo点击率数据。
  • Open Mobile Data by MobiPerf: MobiPerf的开放移动数据。
  • UCSD Network Telescope, IPv4 /8 net: 加州大学圣地亚哥分校网络望远镜数据。

数据挑战

  • Challenges in Machine Learning: 机器学习挑战数据集。
  • D4D Challenge of Orange: Orange的数据挑战。
  • CrowdANALYTIX dataX: CrowdANALYTIX的数据集。
  • DrivenData Competitions for Social Good: 推动数据竞赛,服务于社会公益。
  • ICWSM Data Challenge (since 2009): 国际社交媒体会议数据挑战。
  • Kaggle Competition Data: Kaggle竞赛数据。
  • KDD Cup by Tencent 2012: 2012年腾讯KDD杯数据。
  • Localytics Data Visualization Challenge: Localytics数据可视化挑战。
  • Netflix Prize: Netflix奖数据集。
  • Space Apps Challenge: 太空应用挑战数据。
  • Telecom Italia Big Data Challenge: 意大利电信大数据挑战。
  • Yelp Dataset Challenge: Yelp数据集挑战。

经济学

  • American Economic Ass (AEA): 美国经济协会数据。
  • EconData from UMD: 马里兰大学经济数据。
  • Internet Product Code Database: 互联网产品代码数据库。

能源

  • AMPds: 能源使用数据集。
  • BLUEd: 建筑能耗数据集。
  • COMBED: 能源数据集。
  • Dataport: 能源数据平台。
  • ECO: 能源消耗数据集。
  • EIA: 美国能源信息署数据。
  • HFED: 家庭能耗数据集。
  • iAWE: 室内环境与能耗数据集。
  • Plaid: 能源数据集。
  • REDD: 住宅能耗数据集。
  • UK-Dale: 英国能耗数据集。

金融

  • CBOE Futures Exchange: 芝加哥期权交易所期货数据。
  • Google Finance: 谷歌财经数据。
  • Google Trends: 谷歌趋势数据。
  • NASDAQ: 纳斯达克数据。
  • OANDA: 外汇数据。
  • OSU Financial data: 俄亥俄州立大学金融数据。
  • Quandl: 金融和经济数据平台。
  • St Louis Federal: 圣路易斯联邦储备银行数据。
  • Yahoo Finance: 雅虎财经数据。

地质学

  • USGS Earthquake Archives: 美国地质调查局地震档案。
  • Smithsonian Institution Global Volcano and Eruption Database: 史密森尼学会全球火山和喷发数据库。

地理空间/GIS

  • BODC - marine data of ~22K vars: 英国海洋数据中心数据。
  • Cambridge, MA, US, GIS data on GitHub: 剑桥市GIS数据。
  • EOSDIS - NASAs earth observing system data: 美国宇航局地球观测系统数据。
  • Factual Global Location Data: 事实全球位置数据。
  • Geo Spatial Data from ASU: 亚利桑那州立大学地理空间数据。
  • GeoNames Worldwide: 全球地理名称数据。
  • Global Administrative Areas Database (GADM): 全球行政区域数据库。
  • Landsat 8 on AWS: AWS上的Landsat 8数据。
  • Natural Earth - vectors and rasters of the world: 自然地球数据集。
  • OpenStreetMap (OSM): 开放街道地图数据。
  • TIGER/Line - U.S. boundaries and roads: 美国边界和道路数据。
  • TwoFishes - Foursquares coarse geocoder: Foursquare的粗略地理编码器数据。
  • TZ Timezones shapfiles: 时区矢量数据。
  • World countries in multiple formats: 多格式的世界国家数据。
  • List of all countries in all languages: 所有语言的所有国家列表。
  • OpenAddresses: 开放地址数据。

政府

  • Austin, TX, US: 奥斯汀市数据。
  • Australia (abs.gov.au): 澳大利亚统计局数据。
  • Australia (data.gov.au): 澳大利亚政府数据。
  • Austria (data.gv.at): 奥地利政府数据。
  • Brazil: 巴西政府数据。
  • Cambridge, MA, US: 剑桥市数据。
  • Canada: 加拿大政府数据。
  • Chicago: 芝加哥市数据。
  • Dallas Open Data: 达拉斯开放数据。
  • Denver Open Data: 丹佛开放数据。
  • Durham, NC Open Data: 达勒姆开放数据。
  • England LGInform: 英格兰地方政府信息。
  • EuroStat: 欧洲统计局数据。
  • FedStats: 联邦统计数据。
  • Finland: 芬兰政府数据。
  • France: 法国政府数据。
  • Germany: 德国政府数据。
  • Glasgow, Scotland, UK: 格拉斯哥市数据。
  • Guardian world governments: 卫报世界政府数据。
  • Houston Open Data: 休斯顿开放数据。
  • Indian Government Data: 印度政府数据。
  • Indonesian Data Portal: 印度尼西亚数据门户。
  • London Datastore, UK: 伦敦数据商店。
  • Los Angeles Open Data: 洛杉矶开放数据。
  • MassGIS, Massachusetts, U.S.: 马萨诸塞州地理信息系统数据。
  • Mexico: 墨西哥政府数据。
  • Netherlands: 荷兰政府数据。
  • New Zealand: 新西兰政府数据。
  • NYC betanyc: 纽约市数据。
  • NYC Open Data: 纽约市开放数据。
  • OECD: 经济合作与发展组织数据。
  • Oklahoma: 俄克拉荷马州数据。
  • Open Government Data (OGD) Platform India: 印度开放政府数据平台。
  • Rio de Janeiro, Brazil: 里约热内卢数据。
  • Romania: 罗马尼亚政府数据。
  • San Francisco Data sets: 旧金山数据集。
  • Seattle: 西雅图数据。
  • Singapore Government Data: 新加坡政府数据。
  • South Africa: 南非政府数据。
  • Switzerland: 瑞士政府数据。
  • The World Bank: 世界银行数据。
  • Texas Open Data: 德克萨斯州开放数据。
  • Puerto Rico Government: 波多黎各政府数据。
  • U.K. Government Data: 英国政府数据。
  • Uruguay: 乌拉圭政府数据。
  • U.S. American Community Survey: 美国社区调查数据。
  • U.S. CDC Public Health datasets: 美国疾病控制与预防中心公共卫生数据集。
  • U.S. Census Bureau: 美国人口普查局数据。
  • U.S. National Center for Education Statistics (NCES): 美国国家教育统计中心数据。
  • U.S. Department of Housing and Urban Development (HUD): 美国住房和城市发展部数据。
  • U.S. Federal Government Agencies: 美国联邦政府机构数据。
  • U.S. Federal Government Data Catalog: 美国联邦政府数据目录。
  • U.S. Food and Drug Administration (FDA): 美国食品药品监督管理局数据。
  • U.S. Open Government: 美国开放政府数据。
  • UK 2011 Census Open Atlas Project: 英国2011年人口普查开放地图项目。
  • United Nations: 联合国数据。
  • Vancouver, BC Open Data Catalog: 温哥华开放数据目录。

医疗保健

  • EHDP Large Health Data Sets: EHDP大型健康数据集。
  • Gapminder World, demographic databases: Gapminder世界人口数据库。
  • Medicare Coverage Database (MCD), U.S.: 美国医疗保险覆盖数据库。
  • Medicare Data Engine of medicare.gov Data: 医疗保险数据引擎。
  • Medicare Data File: 医疗保险数据文件。
  • Number of Ebola Cases and Deaths in Affected Countries (2014): 2014年受影响国家埃博拉病例和死亡人数。

图像处理

  • 10k US Adult Faces Database: 10,000美国成年人面部数据库。
  • 2GB of Photos of Cats: 2GB的猫照片数据。
  • Stanford Dogs Dataset: 斯坦福犬类数据集。
  • The Oxford-IIIT Pet Dataset: 牛津-IIIT宠物数据集。
  • Animals with attributes: 带有属性的动物数据集。
  • Affective Image Classification: 情感图像分类数据集。
  • Face Recognition Benchmark: 面部识别基准数据集。
  • ImageNet (in WordNet hierarchy): 基于WordNet层次结构的ImageNet数据集。
  • International Affective Picture System, UFL: 国际情感图片系统。
  • Massive Visual Memory Stimuli, MIT: 麻省理工学院大规模视觉记忆刺激数据。
  • SUN database, MIT: 麻省理工学院SUN数据库。
  • YouTube Faces Database: YouTube面部数据集。
  • Indoor Scene Recognition: 室内场景识别数据集。

机器学习

  • Delve Datasets for classification and regression (Univ. of Toronto): 多伦多大学分类和回归数据集。
  • Discogs Monthly Data: Discogs每月数据。
  • eBay Online Auctions (2012): 2012年eBay在线拍卖数据。
  • IMDb Database: IMDb数据库。
  • Keel Repository for classification, regression and time series: KEEL分类、回归和时间序列数据集。
  • Lending Club Loan Data: Lending Club贷款数据。
  • Machine Learning Data Set Repository: 机器学习数据集存储库。
  • Million Song Dataset: 百万歌曲数据集。
  • More Song Datasets: 更多歌曲数据集。
  • MovieLens Data Sets: MovieLens数据集。
  • RDataMining - "R and Data Mining" ebook data: R和数据挖掘电子书数据。
  • Registered Meteorites on Earth: 地球上注册的陨石数据。
  • Restaurants Health Score Data in San Francisco: 旧金山餐厅健康评分数据。
  • UCI Machine Learning Repository: UCI机器学习存储库。
  • Yahoo! Ratings and Classification Data: 雅虎评级和分类数据。

博物馆

  • Cooper-Hewitts Collection Database: Cooper-Hewitt收藏数据库。
  • Minneapolis Institute of Arts metadata: 明尼阿波利斯艺术学院元数据。
  • Tate Collection metadata: 泰特收藏元数据。
  • The Getty vocabularies: 盖蒂词汇。
  • Rijksmuseum Historical Art Collection: 荷兰国家博物馆历史艺术收藏。

自然语言

  • Blogger Corpus: 博客语料库。
  • ClueWeb09 FACC: ClueWeb09 FACC数据。
  • ClueWeb12 FACC: ClueWeb12 FACC数据。
  • DBpedia - 4.58M things with 583M facts: DBpedia知识库。
  • Flickr Personal Taxonomies: Flickr个人分类法。
  • Google Books Ngrams (2.2TB): 谷歌图书N元语法数据。
  • Google Web 5gram (1TB, 2006): 谷歌网络5元语法数据。
  • Gutenberg eBooks List: 古腾堡电子书列表。
  • Hansards text chunks of Canadian Parliament: 加拿大议会汉萨德文本块。
  • Machine Translation of European languages: 欧洲语言机器翻译数据。
  • SMS Spam Collection in English: 英文短信垃圾邮件收集。
  • SaudiNewsNet Collection of Saudi Newspaper Articles (Arabic, 30K articles): 沙特新闻网络收集的沙特报纸文章。
  • USENET postings corpus of 2005~2011: 2005至2011年USENET帖子语料库。
  • Wikidata - Wikipedia databases: 维基数据 - 维基百科数据库。
  • Wikipedia Links data - 40 Million Entities in Context: 维基百科链接数据 - 上下文中的4000万实体。
  • WordNet databases and tools: WordNet数据库和工具。

物理学

  • CERN Open Data Portal: 欧洲核子研究组织开放数据门户。
  • NSSDC (NASA) data of 550 space spacecraft: 美国国家航空航天局空间飞行器数据。
  • NASA Exoplanet Archive: 美国宇航
搜集汇总
数据集介绍
main_image_url
构建方式
该数据集是通过收集和整理来自博客、回答和用户响应的公共数据源而构建的。它包含了大量的数据集,其中大部分是免费的,但也有一些是付费的。
使用方法
使用该数据集时,用户可以根据需求选择合适的数据集。数据集通常以列表形式呈现,用户可以通过链接访问数据集的详细信息。对于一些特定的数据集,可能需要注册或付费才能访问。
背景与挑战
背景概述
Awesome Public Datasets是一个由sindresorhus维护的GitHub列表,旨在收集和整理网络上可用的公共数据集。这些数据集主要来源于博客、回答和用户响应,涵盖了从农业到物理学,再到心理学等多个领域。该数据集列表的创建时间为2012年,主要研究人员为sindresorhus,其核心研究问题是提供一站式的公共数据集资源,以便于研究人员和开发者快速找到并使用这些数据集。该数据集列表对相关领域的影响主要体现在方便了数据获取,提高了研究效率。
当前挑战
构建这样一个全面的公共数据集列表面临的挑战包括:1) 数据集的质量和可靠性验证;2) 数据集的更新和维护;3) 数据集隐私和版权问题的处理;4) 数据集的分类和搜索效率。所解决的领域问题包括方便研究者快速定位和访问大量多样化的数据集,从而促进研究和创新。
常用场景
经典使用场景
awesome-public-datasets数据集经典使用场景在于,它作为一个公共数据集的集合,被广泛应用于各类学术研究和数据科学项目中。研究者可以根据需要从中选择合适的数据集进行机器学习模型的训练、自然语言处理、图像识别等任务,例如利用其中的文本数据集进行情感分析,或使用图像数据集进行计算机视觉研究。
解决学术问题
该数据集解决了学术研究中数据获取的难题,尤其是在数据隐私和版权日益受到关注的情况下。它提供了大量免费且可公开访问的数据集,帮助研究者避免了数据收集的繁琐过程,从而能够更加专注于研究方法和分析本身,加速学术成果的产出。
实际应用
在实际应用中,awesome-public-datasets数据集可用于构建各种数据驱动的应用,如基于机器学习算法的推荐系统、自然语言处理工具、图像识别服务等等。这些应用可以服务于教育、医疗、商业等多个领域,提供数据支持和决策辅助。
数据集最近研究
最新研究方向
awesome-public-datasets 数据集涵盖了多个领域,其最新研究方向主要集中在数据的整合、清洗和高效利用上。该数据集的影响和意义在于,它为研究者提供了一个丰富的资源库,有助于推动诸如机器学习、自然语言处理、生物信息学等前沿领域的研究。此外,该数据集还关联着热点事件,如公共卫生领域中的疫情监测、气候研究中的气候变化分析等,显示了大数据在应对现实世界问题中的重要作用。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作