five

Awesome Public Datasets

收藏
github2018-06-19 更新2024-05-31 收录
下载链接:
https://github.com/koppor/awesome-public-datasets
下载链接
链接失效反馈
官方服务:
资源简介:
一个包含高质量公开数据集的精选列表,涵盖多个领域,如农业、生物学、气候/天气等。

A curated list of high-quality public datasets spanning multiple domains such as agriculture, biology, climate/weather, and more.
创建时间:
2015-10-11
原始信息汇总

数据集概述

农业

  • U.S. Department of Agricultures PLANTS Database: 提供美国农业部的植物数据库链接。

生物学

  • 1000 Genomes: 提供人类基因组数据。
  • American Gut (Microbiome Project): 美国肠道项目,研究人类肠道微生物。
  • Collaborative Research in Computational Neuroscience (CRCNS): 计算神经科学合作研究数据集。
  • Gene Expression Omnibus (GEO): 基因表达数据库。
  • Human Microbiome Project (HMP): 人类微生物组项目。
  • ICOS PSP Benchmark: 蛋白质结构预测基准数据集。
  • MIT Cancer Genomics Data: 麻省理工学院癌症基因组数据。
  • NIH Microarray data (FTP): 美国国立卫生研究院的微阵列数据。
  • OpenSNP genotypes data: 开放的基因型数据。
  • Pathguid: Protein-Protein Interactions Catalog: 蛋白质相互作用目录。
  • Protein Data Bank: 蛋白质数据库。
  • PubChem Project: 公共化学数据库。
  • PubGene (now Coremine Medical): 生物医学文献数据库。
  • Stanford Microarray Data: 斯坦福微阵列数据库。
  • The Personal Genome Project: 个人基因组项目。
  • UCSC Public Data: 加州大学圣克鲁兹分校公共数据。
  • UniGene: 基因序列数据库。

气候/天气

  • Australian Weather: 澳大利亚天气数据。
  • Brazilian Weather - Historical data: 巴西历史天气数据。
  • Canadian Meteorological Centre: 加拿大气象中心数据。
  • Climate Data from UEA: 东英吉利大学气候数据。
  • Global Climate Data Since 1929: 自1929年以来的全球气候数据。
  • NASA Global Imagery Browse Services: 美国宇航局全球图像浏览服务。
  • NOAA Bering Sea Climate: 美国国家海洋和大气管理局白令海气候数据。
  • NOAA Climate Datasets: 美国国家海洋和大气管理局气候数据集。
  • NOAA Realtime Weather Models: 美国国家海洋和大气管理局实时天气模型。
  • The World Bank Open Data Resources for Climate Change: 世界银行气候变化开放数据资源。
  • UEA Climatic Research Unit: 东英吉利大学气候研究中心数据。
  • WU Historical Weather Worldwide: 世界历史天气数据。

复杂网络

  • CrossRef DOI URLs: 学术出版物的DOI链接。
  • DBLP Citation dataset: 计算机科学文献引用数据集。
  • NBER Patent Citations: 美国国家经济研究局的专利引用数据。
  • NIST complex networks data collection: 美国国家标准与技术研究院复杂网络数据集。
  • Protein-protein interaction network: 蛋白质相互作用网络数据。
  • PyPI and Maven Dependency Network: Python包和Maven依赖网络数据。
  • Scopus Citation Database: Scopus引用数据库。
  • Small Network Data: 小型网络数据集。
  • Stanford GraphBase (Steven Skiena): 斯坦福图基数据集。
  • Stanford Large Network Dataset Collection: 斯坦福大型网络数据集。
  • The Koblenz Network Collection: 科布伦茨网络数据集。
  • The Laboratory for Web Algorithmics (UNIMI): 网络算法实验室数据集。
  • The Nexus Network Repository: 网络存储库数据集。
  • UCI Network Data Repository: 加州大学欧文分校网络数据存储库。
  • UFL sparse matrix collection: 佛罗里达大学稀疏矩阵数据集。
  • WSU Graph Database: 华盛顿州立大学图数据库。

计算机网络

  • 3.5B Web Pages from CommonCraw 2012: 2012年Common Crawl的35亿网页数据。
  • 53.5B Web clicks of 100K users in Indiana Univ.: 印第安纳大学10万用户的535亿网络点击数据。
  • CAIDA Internet Datasets: 互联网数据集。
  • ClueWeb09 - 1B web pages: ClueWeb09的10亿网页数据。
  • ClueWeb12 - 733M web pages: ClueWeb12的7.33亿网页数据。
  • CommonCrawl Web Data over 7 years: 7年间的Common Crawl网络数据。
  • CRAWDAD Wireless datasets from Dartmouth Univ.: 达特茅斯大学的无线数据集。
  • Criteo click-through data: Criteo点击率数据。
  • Open Mobile Data by MobiPerf: MobiPerf的开放移动数据。
  • UCSD Network Telescope, IPv4 /8 net: 加州大学圣地亚哥分校网络望远镜数据。

数据挑战

  • Challenges in Machine Learning: 机器学习挑战数据。
  • D4D Challenge of Orange: Orange的数据挑战。
  • CrowdANALYTIX dataX: CrowdANALYTIX的数据挑战。
  • DrivenData Competitions for Social Good: 社会公益驱动数据竞赛。
  • ICWSM Data Challenge (since 2009): 自2009年以来的ICWSM数据挑战。
  • Kaggle Competition Data: Kaggle竞赛数据。
  • KDD Cup by Tencent 2012: 腾讯2012年KDD杯数据。
  • Localytics Data Visualization Challenge: Localytics数据可视化挑战。
  • Netflix Prize: Netflix奖数据。
  • Space Apps Challenge: 太空应用挑战数据。
  • Telecom Italia Big Data Challenge: 意大利电信大数据挑战。
  • Yelp Dataset Challenge: Yelp数据挑战。

经济学

  • American Economic Ass (AEA): 美国经济协会数据。
  • EconData from UMD: 马里兰大学经济数据。
  • Internet Product Code Database: 互联网产品代码数据库。

能源

  • AMPds: 能源使用数据集。
  • BLUEd: 建筑能源使用数据。
  • COMBED: 能源消耗数据集。
  • Dataport: 能源数据平台。
  • ECO: 能源消耗数据。
  • EIA: 美国能源信息署数据。
  • HFED: 高频能源数据。
  • iAWE: 建筑能源使用数据。
  • Plaid: 能源分析数据。
  • REDD: 住宅能源使用数据。
  • UK-Dale: 英国住宅能源数据。

金融

  • CBOE Futures Exchange: 芝加哥期权交易所期货数据。
  • Google Finance: 谷歌财经数据。
  • Google Trends: 谷歌趋势数据。
  • NASDAQ: 纳斯达克数据。
  • OANDA: 外汇交易数据。
  • OSU Financial data: 俄亥俄州立大学金融数据。
  • Quandl: 金融和经济数据平台。
  • St Louis Federal: 圣路易斯联邦储备银行数据。
  • Yahoo Finance: 雅虎财经数据。

地质学

  • USGS Earthquake Archives: 美国地质调查局地震档案。
  • Smithsonian Institution Global Volcano and Eruption Database: 史密森尼学会全球火山和喷发数据库。

地理空间/GIS

  • BODC - marine data of ~22K vars: 英国海洋数据中心数据。
  • Cambridge, MA, US, GIS data on GitHub: 剑桥市GIS数据。
  • EOSDIS - NASAs earth observing system data: 美国宇航局地球观测系统数据。
  • Factual Global Location Data: 事实全球位置数据。
  • Geo Spatial Data from ASU: 亚利桑那州立大学地理空间数据。
  • GeoNames Worldwide: 全球地理名称数据。
  • Global Administrative Areas Database (GADM): 全球行政区划数据库。
  • Landsat 8 on AWS: AWS上的Landsat 8数据。
  • Natural Earth - vectors and rasters of the world: 自然地球矢量和栅格数据。
  • OpenStreetMap (OSM): 开放街道地图数据。
  • TIGER/Line - U.S. boundaries and roads: 美国边界和道路数据。
  • TwoFishes - Foursquares coarse geocoder: Foursquare的粗略地理编码器数据。
  • TZ Timezones shapfiles: 时区矢量数据。
  • World countries in multiple formats: 多格式世界国家数据。
  • List of all countries in all languages: 所有语言的所有国家列表。
  • OpenAddresses: 开放地址数据。

政府

  • Austin, TX, US: 奥斯汀市数据。
  • Australia (abs.gov.au): 澳大利亚统计局数据。
  • Australia (data.gov.au): 澳大利亚政府数据。
  • Austria (data.gv.at): 奥地利政府数据。
  • Brazil: 巴西政府数据。
  • Cambridge, MA, US: 剑桥市数据。
  • Canada: 加拿大政府数据。
  • Chicago: 芝加哥市数据。
  • Dallas Open Data: 达拉斯开放数据。
  • Denver Open Data: 丹佛开放数据。
  • Durham, NC Open Data: 达勒姆市开放数据。
  • England LGInform: 英格兰地方政府信息。
  • EuroStat: 欧洲统计局数据。
  • FedStats: 联邦统计数据。
  • Finland: 芬兰政府数据。
  • France: 法国政府数据。
  • Germany: 德国政府数据。
  • Glasgow, Scotland, UK: 格拉斯哥市数据。
  • Guardian world governments: 卫报全球政府数据。
  • Houston Open Data: 休斯顿开放数据。
  • Indian Government Data: 印度政府数据。
  • Indonesian Data Portal: 印度尼西亚数据门户。
  • London Datastore, UK: 伦敦数据存储。
  • Los Angeles Open Data: 洛杉矶开放数据。
  • MassGIS, Massachusetts, U.S.: 马萨诸塞州地理信息系统数据。
  • Mexico: 墨西哥政府数据。
  • Netherlands: 荷兰政府数据。
  • New Zealand: 新西兰政府数据。
  • NYC betanyc: 纽约市数据。
  • NYC Open Data: 纽约市开放数据。
  • OECD: 经济合作与发展组织数据。
  • Oklahoma: 俄克拉荷马州数据。
  • Open Government Data (OGD) Platform India: 印度开放政府数据平台。
  • Rio de Janeiro, Brazil: 里约热内卢市数据。
  • Romania: 罗马尼亚政府数据。
  • San Francisco Data sets: 旧金山数据集。
  • Seattle: 西雅图市数据。
  • Singapore Government Data: 新加坡政府数据。
  • South Africa: 南非政府数据。
  • Switzerland: 瑞士政府数据。
  • The World Bank: 世界银行数据。
  • Texas Open Data: 德克萨斯州开放数据。
  • Puerto Rico Government: 波多黎各政府数据。
  • U.K. Government Data: 英国政府数据。
  • Uruguay: 乌拉圭政府数据。
  • U.S. American Community Survey: 美国社区调查数据。
  • U.S. CDC Public Health datasets: 美国疾病控制与预防中心公共卫生数据集。
  • U.S. Census Bureau: 美国人口普查局数据。
  • U.S. National Center for Education Statistics (NCES): 美国国家教育统计中心数据。
  • U.S. Department of Housing and Urban Development (HUD): 美国住房和城市发展部数据。
  • U.S. Federal Government Agencies: 美国联邦政府机构数据。
  • U.S. Federal Government Data Catalog: 美国联邦政府数据目录。
  • U.S. Food and Drug Administration (FDA): 美国食品药品监督管理局数据。
  • U.S. Open Government: 美国开放政府数据。
  • UK 2011 Census Open Atlas Project: 英国2011年人口普查开放地图项目。
  • United Nations: 联合国数据。
  • Vancouver, BC Open Data Catalog: 温哥华开放数据目录。

医疗保健

  • EHDP Large Health Data Sets: 大型健康数据集。
  • Gapminder World, demographic databases: 人口统计数据库。
  • Medicare Coverage Database (MCD), U.S.: 美国医疗保险覆盖数据库。
  • Medicare Data Engine of medicare.gov Data: 医疗保险数据引擎。
  • Medicare Data File: 医疗保险数据文件。
  • Number of Ebola Cases and Deaths in Affected Countries (2014): 受影响国家埃博拉病例和死亡人数(2014年)。

图像处理

  • 10k US Adult Faces Database: 10,000美国成年人面部数据库。
  • 2GB of Photos of Cats: 2GB的猫照片数据。
  • Stanford Dogs Dataset: 斯坦福犬类数据集。
  • The Oxford-IIIT Pet Dataset: 牛津-IIIT宠物数据集。
  • Animals with attributes: 带有属性的动物数据集。
  • Affective Image Classification: 情感图像分类数据集。
  • Face Recognition Benchmark: 面部识别基准数据集。
  • ImageNet (in WordNet hierarchy): 基于WordNet层次结构的ImageNet数据集。
  • International Affective Picture System, UFL: 国际情感图片系统。
  • Massive Visual Memory Stimuli, MIT: 大规模视觉记忆刺激数据集。
  • SUN database, MIT: 斯坦福大学场景理解数据库。
  • YouTube Faces Database: YouTube面部数据集。
  • Indoor Scene Recognition: 室内场景识别数据集。

机器学习

  • Delve Datasets for classification and regression (Univ. of Toronto): 多伦多大学分类和回归数据集。
  • Discogs Monthly Data: Discogs每月数据。
  • eBay Online Auctions (2012): 2012年eBay在线拍卖数据。
  • IMDb Database: IMDb数据库。
  • Keel Repository for classification, regression and time series: 分类、回归和时间序列数据存储库。
  • Lending Club Loan Data: Lending Club贷款数据。
  • Machine Learning Data Set Repository: 机器学习数据集存储库。
  • Million Song Dataset: 百万首歌曲数据集。
  • More Song Datasets: 更多歌曲数据集。
  • MovieLens Data Sets: MovieLens数据集。
  • RDataMining - "R and Data Mining" ebook data: R和数据挖掘电子书数据。
  • Registered Meteorites on Earth: 地球上注册的陨石数据。
  • Restaurants Health Score Data in San Francisco: 旧金山餐厅健康评分数据。
  • UCI Machine Learning Repository: UCI机器学习存储库。
  • Yahoo! Ratings and Classification Data: 雅虎评级和分类数据。

博物馆

  • Cooper-Hewitts Collection Database: 库珀·休伊特博物馆收藏数据库。
  • Minneapolis Institute of Arts metadata: 明尼阿波利斯艺术学院元数据。
  • Tate Collection metadata: 泰特美术馆收藏元数据。
  • The Getty vocabularies: 盖蒂词汇。
  • Rijksmuseum Historical Art Collection: 荷兰国立博物馆历史艺术收藏。

自然语言

  • Blogger Corpus: 博客语料库。
  • ClueWeb09 FACC: ClueWeb09 FACC数据集。
  • ClueWeb12 FACC: ClueWeb12 FACC数据集。
  • DBpedia - 4.58M things with 583M facts: DBpedia数据集。
  • Flickr Personal Taxonomies: Flickr个人分类法。
  • Google Books Ngrams (2.2TB): 谷歌图书N元语法数据。
  • Google Web 5gram (1TB, 2006): 谷歌网络5元语法数据。
  • Gutenberg eBooks List: 古腾堡电子书列表。
  • Hansards text chunks of Canadian Parliament: 加拿大议会文本块。
  • Machine Translation of European languages: 欧洲语言机器翻译数据。
  • SMS Spam Collection in English: 英文短信垃圾邮件收集。
  • SaudiNewsNet Collection of Saudi Newspaper Articles (Arabic, 30K articles): 沙特新闻网络收集的沙特报纸文章。
  • USENET postings corpus of 2005~2011: 2005年至2011年的USENET帖子语料库。
  • Wikidata - Wikipedia databases: 维基数据 - 维基百科数据库。
  • Wikipedia Links data - 40 Million Entities in Context: 维基百科链接数据。
  • WordNet databases and tools: WordNet数据库和工具。

物理学

  • CERN Open Data Portal: 欧洲核子研究组织开放数据门户。
  • NSSDC (NASA) data of 550 space spacecraft: 美国宇航局国家空间科学数据中心数据。
  • NASA Exoplanet Archive: 美国宇航局系外行星档案。
  • **S
搜集汇总
数据集介绍
main_image_url
构建方式
Awesome Public Datasets 是一个收集和整理自博客、回答和用户响应的公共数据集列表。该数据集的构建主要通过从网络资源中搜集已有的公共数据集,并进行分类整理,以便用户可以方便地查找和使用。
使用方法
用户可以通过访问提供的链接直接获取数据集,或者通过数据集的描述信息了解数据集的详细信息。此外,用户还可以通过数据集的标签和分类进行筛选,以找到符合自己研究需求的数据集。
背景与挑战
背景概述
Awesome Public Datasets 是一个由 sindresorhus 维护的公共数据集列表,旨在收集和整理网络上可用的公共数据资源。该数据集涵盖了多个领域,如农业、生物学、气候/天气、复杂网络、计算机网络等,包含了如 1000 Genomes、American Gut、Collaborative Research in Computational Neuroscience (CRCNS) 等重要数据集。这些数据集的创建旨在促进开放科学研究和数据共享,对相关领域产生了重要影响。
当前挑战
尽管 Awesome Public Datasets 为研究者提供了丰富的数据资源,但在使用过程中也面临一些挑战。首先,数据集的质量和一致性各不相同,研究者在使用前需要进行仔细的筛选和验证。其次,部分数据集的获取可能存在限制,例如版权或隐私问题。此外,数据集的更新和维护也需要持续的投入和关注,以确保其长期可用性和准确性。
常用场景
经典使用场景
Awesome Public Datasets 是一个搜集了众多公开数据集的列表,其经典使用场景主要在于为研究人员和开发者提供一个查找和访问各种数据集的便捷途径。用户可以通过该平台发现不同领域的高质量数据集,用于学术研究、数据分析、机器学习模型训练等。
解决学术问题
该数据集解决了学术研究中数据获取困难的问题,尤其是在数据集搜寻和整理方面耗费大量时间的难题。它汇集了来自各个领域的公共数据集,如生物信息学、气象学、社交网络等,为学术研究提供了丰富的数据资源。
实际应用
在实际应用中,Awesome Public Datasets 可以为数据科学家和工程师提供所需的数据集,以便他们构建和测试各种应用,如疾病预测模型、天气预测系统、社交网络分析工具等。此外,企业和政府机构也可以利用这些数据集进行市场分析和决策支持。
数据集最近研究
最新研究方向
Awesome Public Datasets数据集涵盖了广泛的研究领域,其最新研究方向主要集中在开放数据集的整合、共享与应用。随着大数据技术的发展,如何高效地从这些数据集中提取有用信息,以及如何将这些数据集应用于诸如机器学习、自然语言处理、图像处理等前沿技术领域,成为当前研究的热点。此外,数据集的质量控制、隐私保护以及合规性问题也是研究中的重要议题。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作