five

awesome-public-datasets|公共数据集数据集|多领域数据集

收藏
github2016-12-18 更新2024-05-31 收录
公共数据集
多领域
下载链接:
https://github.com/Korbol69/awesome-public-datasets
下载链接
链接失效反馈
资源简介:
这是一个收集和整理自互联网上的大规模公共数据集的列表,数据集涵盖气候、经济、能源、金融、生物、农业、物理、医疗健康和地理空间等多个领域。

This is a list of large-scale public datasets collected and organized from the internet, covering multiple fields such as climate, economy, energy, finance, biology, agriculture, physics, healthcare, and geospatial data.
创建时间:
2014-12-13
原始信息汇总

数据集概述

气候/天气

  • Australian Weather: http://www.bom.gov.au/climate/dwo/
  • Canadian Meteorological Centre: https://weather.gc.ca/grib/index_e.html
  • Climate Data: http://www.cru.uea.ac.uk/cru/data/temperature/#datter and ftp://ftp.cmdl.noaa.gov/
  • Global Climate Data Since 1929: http://www.tutiempo.net/en/Climate
  • NOAA Bering Sea Climate: http://www.beringclimate.noaa.gov/
  • NOAA Climate Datasets: http://ncdc.noaa.gov/data-access/quick-links
  • NOAA Realtime Weather Models: http://www.ncdc.noaa.gov/data-access/model-data/model-datasets/numerical-weather-prediction
  • WU Historical Weather Worldwide: http://www.wunderground.com/history/index.html

经济学

  • American Economic Ass. (AEA): http://www.aeaweb.org/RFE/toc.php?show=complete
  • EconData (UMD): http://inforumweb.umd.edu/econdata/econdata.html
  • Internet Product Code Database: http://www.upcdatabase.com/
  • World bank: http://data.worldbank.org/indicator

能源

  • AMPds: http://ampds.org/
  • BLUEd: http://nilm.cmubi.org/
  • COMBED: http://combed.github.io/
  • Dataport: https://dataport.pecanstreet.org/
  • ECO: http://www.vs.inf.ethz.ch/res/show.html?what=eco-data
  • EIA: http://www.eia.gov/electricity/data/eia923/
  • iAWE: http://iawe.github.io/
  • HFED: http://hfed.github.io/
  • Plaid: http://plaidplug.com/
  • REDD: http://redd.csail.mit.edu/
  • UK-Dale: http://www.doc.ic.ac.uk/~dk3810/data/

金融

  • CBOE Futures Exchange: http://cfe.cboe.com/Data/
  • Google Finance: https://www.google.com/finance
  • Google Trends: http://www.google.com/trends?q=google&ctab=0&geo=all&date=all&sort=0
  • NASDAQ: https://data.nasdaq.com/
  • OANDA: http://www.oanda.com/
  • OSU Financial data: http://fisher.osu.edu/fin/osudata.htm or http://fisher.osu.edu/fin/fdf/osudata.htm
  • Quandl: http://www.quandl.com/
  • St Louis Federal: http://research.stlouisfed.org/fred2/
  • Yahoo Finance: http://finance.yahoo.com/

生物学

  • CRCNS: http://crcns.org/data-sets
  • Gene Expression Omnibus: http://www.ncbi.nlm.nih.gov/geo/
  • Human Microbiome Project: http://www.hmpdacc.org/reference_genomes/reference_genomes.php
  • MIT Cancer Genomics Data: http://www.broadinstitute.org/cgi-bin/cancer/datasets.cgi
  • NIH Microarray data: ftp://ftp.ncbi.nih.gov/pub/geo/DATA/supplementary/series/GSE6532/
  • Protein structure: http://www.infobiotic.net/PSPbenchmarks/
  • Protein Data Bank: http://pdb.org/
  • Public Gene Data: http://www.pubgene.org/
  • Stanford Microarray Data: http://smd.stanford.edu/
  • UniGene: http://www.ncbi.nlm.nih.gov/unigene
  • The Personal Genome Project: http://www.personalgenomes.org/ or https://my.pgp-hms.org/public_genetic_data
  • 1000 Genomes: http://www.1000genomes.org/data
  • UCSC Public Data: http://hgdownload.soe.ucsc.edu/downloads.html

农业

  • U.S. Department of Agricultures PLANTS Database: http://www.plants.usda.gov/dl_all.html

物理学

  • NASA: http://nssdc.gsfc.nasa.gov/nssdc/obtaining_data.html
  • CERN Open Data Portal: http://opendata.cern.ch/

医疗保健

  • EHDP Large Health Data Sets: http://www.ehdp.com/vitalnet/datasets.htm
  • Gapminder: http://www.gapminder.org/data/
  • Medicare Data File: http://go.cms.gov/19xxPN4

GeoSpace/GIS

  • EOSDIS: http://sedac.ciesin.columbia.edu/data/sets/browse
  • Factual Global Location Data: http://www.factual.com/
  • Geo Spatial Data: http://geodacenter.asu.edu/datalist/
  • OpenStreetMap (a free map worldwide): http://wiki.openstreetmap.org/wiki/Downloading_data
  • GeoNames (over eight million placenames): http://www.geonames.org/
  • BODC (marine data of nearly 22,000 oceanographic vars): http://www.bodc.ac.uk/data/where_to_find_data/
  • GADM (Global Administrative Areas database): http://www.gadm.org/
  • twofishes (Foursquares coarse geocoder): https://github.com/foursquare/twofishes
  • Natural Earth (vectors and rasters of the world): http://www.naturalearthdata.com/
  • tz_world (timezone polygons): http://efele.net/maps/tz/world/
  • TIGER/Line (official United States boundaries and roads): http://www.census.gov/geo/maps-data/data/tiger-line.html

交通运输

  • Airlines Data (2009 ASA Challenge): http://stat-computing.org/dataexpo/2009/the-data.html
  • Bike Share Data Systems: https://github.com/BetaNYC/Bike-Share-Data-Best-Practices/wiki/Bike-Share-Data-Systems
  • Edge data for US domestic flights 1990 to 2009: http://data.memect.com/?p=229
  • Half a million Hubway rides: http://hubwaydatachallenge.org/trip-history-data/
  • NYC Taxi Trip Data 2013 (FOIA/FOIL): https://archive.org/details/nycTaxiTripData2013
  • OpenFlights (airport, airline and route data): http://openflights.org/data.html
  • RITA Airline On-Time Performance Data: http://www.transtats.bts.gov/Tables.asp?DB_ID=120
  • RITA transport data collection: http://www.transtats.bts.gov/DataIndex.asp
  • Transport for London: http://www.tfl.gov.uk/info-for/open-data-users/our-feeds
  • U.S. Freight Analysis Framework: http://ops.fhwa.dot.gov/freight/freight_analysis/faf/index.htm
  • Marine Traffic - ship tracks, port calls and more: https://www.marinetraffic.com/de/p/api-services

政府

  • Archive-it: https://www.archive-it.org/explore?show=Collections
  • Australia: https://data.gov.au/
  • Australia: http://www.abs.gov.au/AUSSTATS/abs@.nsf/DetailsPage/3301.02009?OpenDocument
  • Canada: http://www.data.gc.ca/default.asp?lang=En&n=5BCD274E-1
  • Chicago: https://data.cityofchicago.org/
  • FDA: https://open.fda.gov/index.html
  • Fed Stats: http://www.fedstats.gov/cgi-bin/A2Z.cgi
  • Guardian world governments: http://www.guardian.co.uk/world-government-data
  • HUD: http://www.huduser.org/portal/datasets/pdrdatas.html
  • London Datastore, U.K: http://data.london.gov.uk/dataset
  • Glasgow, Scotland, UK: http://data.glasgow.gov.uk/
  • Netherlands: https://data.overheid.nl/
  • New Zealand: http://www.stats.govt.nz/browse_for_stats.aspx
  • NYC betanyc: http://betanyc.us/
  • NYC Open Data: http://nycplatform.socrata.com/
  • OECD: http://www.oecd.org/document/0,3746,en_2649_201185_46462759_1_1_1_1,00.html
  • RITA: http://www.transtats.bts.gov/OT_Delay/OT_DelayCause1.asp
  • San Francisco Data sets: http://datasf.org/
  • The World Bank: http://wdronline.worldbank.org/
  • U.K. Government Data: http://data.gov.uk/data
  • U.S. Census Bureau: http://www.census.gov/data.html
  • U.S. American Community Survey: http://www.census.gov/acs/www/data_documentation/data_release_info/
  • U.S. Federal Government Agencies: http://www.data.gov/metric
  • U.S. Federal Government Data Catalog: http://catalog.data.gov/dataset
  • U.S. Open Government: http://www.data.gov/open-gov/
  • UK 2011 Census Open Atlas Project: http://www.alex-singleton.com/2011-census-open-atlas-project/
  • United Nations: http://data.un.org/
  • US CDC Public Health datasets: http://www.cdc.gov/nchs/data_access/ftp_data.htm
  • Open Government Data (OGD) Platform India: http://www.data.gov.in/

体育

  • Cricsheet (cricket): http://cricsheet.org/
  • Betfair (betting exchange) Event Results: http://data.betfair.com/
  • Lahmans Baseball Database: http://www.seanlahman.com/baseball-archive/statistics/
  • Retrosheet (baseball): http://www.retrosheet.org/game.htm
  • Ergast Formula 1 (API available): http://ergast.com/mrd/db

数据挑战

  • Challenges in Machine Learning: http://www.chalearn.org/
  • DrivenData Competitions for Social Good: http://www.drivendata.org/
  • ICWSM Data Challenge (since 2009): http://icwsm.cs.umbc.edu/
  • Kaggle Competition Data: http://www.kaggle.com/
  • KDD Cup by Tencent 2012: https://www.kddcup2012.org/
  • Netflix Prize: http://www.netflixprize.com/leaderboard
  • Yelp Dataset Challenge: http://www.yelp.com/dataset_challenge

机器学习

  • eBay Online Auctions: http://www.modelingonlineauctions.com/datasets
  • IMDb database: http://www.imdb.com/interfaces
  • Keel Repository: http://sci2s.ugr.es/keel/datasets.php
  • Lending Club Loan Data: https://www.lendingclub.com/info/download-data.action
  • Machine Learning Data Set Repository: http://mldata.org/
  • Million Song Dataset: http://blog.echonest.com/post/3639160982/million-song-dataset
  • More Song Datasets: http://labrosa.ee.columbia.edu/millionsong/pages/additional-datasets
  • MovieLens Data Sets: http://datahub.io/dataset/movielens
  • RDataMining R and Data Mining ebook data: http://www.rdatamining.com/data
  • Registered meteorites on Earth: http://www.analyticbridge.com/profiles/blogs/registered-meteorites-that-has-impacted-on-earth-visualized
  • SF restaurants dataset: http://missionlocal.org/san-francisco-restaurant-health-inspections/
  • UCI Machine Learning Repository: http://archive.ics.uci.edu/ml/
  • University of Toronto Delve Datasets: http://www.cs.toronto.edu/~delve/data/datasets.html
  • Yahoo Ratings and Classification Data: http://webscope.sandbox.yahoo.com/catalog.php?datatype=r

自然语言

  • 40 Million Entities in Context: https://code.google.com/p/wiki-links/downloads/list
  • ClueWeb09 FACC: http://lemurproject.org/clueweb09/FACC1/
  • ClueWeb12 FACC: http://lemurproject.org/clueweb12/FACC1/
  • Flickr personal taxonomies: http://www.isi.edu/natural-language/download/flickr/flickr_taxonomies.html
  • Google Books Ngrams: http://aws.amazon.com/datasets/8172056142375670
  • Google Web 5gram, 2006 (1T): https://catalog.ldc.upenn.edu/LDC2006T13
  • Gutenberg eBooks List: http://www.gutenberg.org/wiki/Gutenberg:Offline_Catalogs
  • Hansards: http://www.isi.edu/natural-language/download/hansard/
  • Machine Translation: http://statmt.org/wmt11/translation-task.html#download
  • SMS Spam Collection: http://www.dt.fee.unicamp.br/~tiago/smsspamcollection/
  • USENET corpus: http://www.psych.ualberta.ca/~westburylab/downloads/usenetcorpus.download.html
  • WordNet: http://wordnet.princeton.edu/wordnet/download/

图像处理

  • 2GB of photos of cats: http://137.189.35.203/WebUI/CatDatabase/catData.html
  • Face Recognition Benchmark: http://www.face-rec.org/databases/
  • ImageNet: http://www.image-net.org/

时间序列

  • Time Series data Library: https://datamarket.com/data/list/?q=provider:tsdl
  • UC Riverside Time Series: http://www.cs.ucr.edu/~eamonn/time_series_data/

社会科学

  • China Hotel Checkin/out data: http://www.360doc.com/content/13/1105/13/7863900_326788919.shtml
  • CMU Enron Email: http://www.cs.cmu.edu/~enron/
  • Facebook Social Networks (since 2007): http://law.di.unimi.it/datasets.php
  • Facebook100 (2005): https://archive.org/details/oxford-2005-facebook-matrix
  • Foursquare (2010,2011): http://www.public.asu.edu/~hgao16/dataset.html
  • Foursquare (UMN/Sarwat, 2013): https://archive.org/details/201309_foursquare_dataset_umn
  • General Social Survey (GSS): http://www3.norc.org/GSS+Website/
  • GetGlue (users rating TV shows): http://bit.ly/1aL8XS0
  • GitHub Archive: http://www.githubarchive.org/
  • ICPSR: http://www.icps
AI搜集汇总
数据集介绍
main_image_url
构建方式
本数据集通过从博客、回答和用户响应中收集和整理公共数据源而构建。数据集的构建主要依赖于网络上的公开资源,包括各种类型的数据库和开放数据平台。
特点
该数据集的特点在于其广泛性、多样性和开放性。它涵盖了气候、经济、能源、金融、生物学、农业、物理、健康、地理信息系统、交通、政府、体育、机器学习等多个领域,几乎包含了所有类型的公共数据集,且大部分数据集可以免费获取。
使用方法
用户可以通过数据集提供的链接直接访问和下载数据。每个数据集的获取方式可能不同,有些可能需要通过API访问,有些则可能需要直接下载文件。用户在使用前应先了解每个数据集的具体使用说明和条款。
背景与挑战
背景概述
‘awesome-public-datasets’是一个旨在收集和整理公共数据集的GitHub项目,创建于2015年,由Caesar0301维护。该项目搜集了来自博客、回答和用户响应的众多数据集,大多数数据集是免费的,但也包含一些收费数据集。该数据集列表的来源为https://github.com/caesar0301/awesome-public-datasets。该项目涵盖了气候、经济、能源、金融、生物学、农业、物理学、健康护理、地理信息系统、交通、政府、体育、机器学习、自然语言处理、图像处理、时间序列、社会科学、复杂网络、计算机网络、博物馆等多个领域的数据集,对相关研究人员和机构提供了极大的便利,推动了各领域的数据共享与利用。
当前挑战
尽管‘awesome-public-datasets’提供了丰富的数据资源,但在使用过程中也存在一些挑战。首先,数据集的多样性和来源的广泛性使得数据的质量参差不齐,对研究人员的筛选和清洗能力提出了较高的要求。其次,部分数据集可能存在版权或隐私问题,使用时需谨慎处理。此外,数据集的更新和维护也是一大挑战,随着数据量的增长和领域的不断发展,保持数据集的时效性和准确性需要持续的努力。
常用场景
经典使用场景
awesome-public-datasets数据集广泛收集了来自不同领域的公共数据集,其经典使用场景主要集中于学术研究和数据科学项目。研究者可以根据自身需求,从中选取相应的数据集进行数据分析、模型训练或作为学术研究的基础数据。
解决学术问题
该数据集解决了学术研究中数据获取的难题,尤其是在气候、经济、能源、金融、生物、农业、物理、健康医疗等多个领域。它为研究者提供了丰富的数据资源,有助于推动各学科的发展,提高研究的深度和广度。
衍生相关工作
基于该数据集,衍生出了大量相关的工作,包括学术论文、数据分析报告、商业智能应用等。这些工作不仅丰富了数据集的应用场景,也为数据科学领域的发展提供了实证基础和实践案例。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

LFW

人脸数据集;LFW数据集共有13233张人脸图像,每张图像均给出对应的人名,共有5749人,且绝大部分人仅有一张图片。每张图片的尺寸为250X250,绝大部分为彩色图像,但也存在少许黑白人脸图片。 URL: http://vis-www.cs.umass.edu/lfw/index.html#download

AI_Studio 收录

YOLO Drone Detection Dataset

为了促进无人机检测模型的开发和评估,我们引入了一个新颖且全面的数据集,专门为训练和测试无人机检测算法而设计。该数据集来源于Kaggle上的公开数据集,包含在各种环境和摄像机视角下捕获的多样化的带注释图像。数据集包括无人机实例以及其他常见对象,以实现强大的检测和分类。

github 收录

Pet Disease images

Comprehensive Image Dataset for Detecting Pet Diseases Across Multiple Species

kaggle 收录

WeChat Social Network Dataset

该数据集包含了微信社交网络的用户关系数据,包括用户之间的关注关系、互动行为等。数据集旨在帮助研究社交网络的结构和动态变化。

www.aminer.cn 收录

RAVDESS

情感语音和歌曲 (RAVDESS) 的Ryerson视听数据库包含7,356个文件 (总大小: 24.8 GB)。该数据库包含24位专业演员 (12位女性,12位男性),以中性的北美口音发声两个词汇匹配的陈述。言语包括平静、快乐、悲伤、愤怒、恐惧、惊讶和厌恶的表情,歌曲则包含平静、快乐、悲伤、愤怒和恐惧的情绪。每个表达都是在两个情绪强度水平 (正常,强烈) 下产生的,另外还有一个中性表达。所有条件都有三种模态格式: 纯音频 (16位,48kHz .wav),音频-视频 (720p H.264,AAC 48kHz,.mp4) 和仅视频 (无声音)。注意,Actor_18没有歌曲文件。

OpenDataLab 收录