five

awesome-public-datasets

收藏
github2018-12-24 更新2024-05-31 收录
下载链接:
https://github.com/pedramsalimi/awesome-public-datasets
下载链接
链接失效反馈
官方服务:
资源简介:
这是一个收集和整理自互联网上的大规模公共数据集的列表,涵盖气候、经济学、能源、金融、生物学、物理学、医疗保健、地理空间/GIS和交通运输等多个领域。

This is a list of large-scale public datasets collected and organized from the internet, covering multiple fields such as climate, economics, energy, finance, biology, physics, healthcare, geospatial/GIS, and transportation.
创建时间:
2018-12-15
原始信息汇总

数据集概述

气候数据集

  • 澳大利亚天气: http://www.bom.gov.au/climate/dwo/
  • 气候数据: http://www.cru.uea.ac.uk/cru/data/temperature/ 和 ftp://ftp.cmdl.noaa.gov/
  • 全球气候数据(1929年至今): http://www.tutiempo.net/en/Climate
  • NOAA Bering Sea Climate: http://www.beringclimate.noaa.gov/
  • NOAA气候数据集: http://ncdc.noaa.gov/data-access/quick-links
  • WU历史天气全球: http://www.wunderground.com/history/index.html

经济学数据集

  • 美国经济协会(AEA): http://www.aeaweb.org/RFE/toc.php?show=complete
  • EconData(UMD): http://inforumweb.umd.edu/econdata/econdata.html
  • 互联网产品代码数据库: http://www.upcdatabase.com/
  • 世界银行: http://data.worldbank.org/indicator

能源数据集

  • AMPds: http://ampds.org/
  • BLUEd: http://nilm.cmubi.org/
  • COMBED: http://combed.github.io/
  • Dataport: https://dataport.pecanstreet.org/
  • ECO: http://www.vs.inf.ethz.ch/res/show.html?what=eco-data
  • iAWE: http://iawe.github.io/
  • HFED: http://hfed.github.io/
  • Plaid: http://plaidplug.com/
  • REDD: http://redd.csail.mit.edu/
  • UK-Dale: http://www.doc.ic.ac.uk/~dk3810/data/

金融数据集

  • CBOE期货交易所: http://cfe.cboe.com/Data/
  • Google财经: https://www.google.com/finance
  • Google趋势: http://www.google.com/trends?q=google&ctab=0&geo=all&date=all&sort=0
  • 纳斯达克: https://data.nasdaq.com/
  • OANDA: http://www.oanda.com/
  • OSU金融数据: http://fisher.osu.edu/fin/osudata.htm 或 http://fisher.osu.edu/fin/fdf/osudata.htm
  • Quandl: http://www.quandl.com/
  • 圣路易斯联邦储备银行: http://research.stlouisfed.org/fred2/
  • 雅虎财经: http://finance.yahoo.com/

生物学数据集

  • CRCNS: http://crcns.org/data-sets
  • 基因表达综合(GEO): http://www.ncbi.nlm.nih.gov/geo/
  • 人类微生物组项目: http://www.hmpdacc.org/reference_genomes/reference_genomes.php
  • MIT癌症基因组数据: http://www.broadinstitute.org/cgi-bin/cancer/datasets.cgi
  • NIH微阵列数据: ftp://ftp.ncbi.nih.gov/pub/geo/DATA/supplementary/series/GSE6532/
  • 蛋白质结构: http://www.infobiotic.net/PSPbenchmarks/
  • 蛋白质数据银行(PDB): http://pdb.org/
  • 公共基因数据: http://www.pubgene.org/
  • 斯坦福微阵列数据库: http://smd.stanford.edu/
  • UniGene: http://www.ncbi.nlm.nih.gov/unigene
  • 个人基因组项目: http://www.personalgenomes.org/ 或 https://my.pgp-hms.org/public_genetic_data
  • 千人基因组: http://www.1000genomes.org/data
  • UCSC公共数据: http://hgdownload.soe.ucsc.edu/downloads.html

物理学数据集

  • NASA: http://nssdc.gsfc.nasa.gov/nssdc/obtaining_data.html

医疗保健数据集

  • EHDP大型健康数据集: http://www.ehdp.com/vitalnet/datasets.htm
  • Gapminder: http://www.gapminder.org/data/
  • 医疗保险数据文件: http://go.cms.gov/19xxPN4

地理空间/GIS数据集

  • EOSDIS: http://sedac.ciesin.columbia.edu/data/sets/browse
  • Factual全球位置数据: http://www.factual.com/
  • 地理空间数据: http://geodacenter.asu.edu/datalist/
  • OpenStreetMap(全球免费地图): http://wiki.openstreetmap.org/wiki/Downloading_data
  • GeoNames(超过八百万地名): http://www.geonames.org/
  • BODC(近22,000个海洋变量数据): http://www.bodc.ac.uk/data/where_to_find_data/
  • GADM(全球行政区划数据库): http://www.gadm.org/
  • twofishes(Foursquare的粗略地理编码器): https://github.com/foursquare/twofishes
  • 自然地球(世界矢量和栅格数据): http://www.naturalearthdata.com/
  • tz_world(时区多边形): http://efele.net/maps/tz/world/
  • TIGER/Line(美国官方边界和道路): http://www.census.gov/geo/maps-data/data/tiger-line.html

交通运输数据集

  • 航空公司数据(2009 ASA挑战): http://stat-computing.org/dataexpo/2009/the-data.html
  • 自行车共享数据系统: https://github.com/BetaNYC/Bike-Share-Data-Best-Practices/wiki/Bike-Share-Data-Systems
  • 美国国内航班边缘数据(1990至2009年): http://data.memect.com/?p=229
  • 半百万Hubway骑行: http://hubwaydatachallenge.org/trip-history-data/
  • 纽约市出租车行程数据2013(FOIA/FOIL): https://archive.org/details/nycTaxiTripData2013
  • OpenFlights(机场、航空公司和航线数据): http://openflights.org/data.html
  • RITA航空公司准时性能数据: http://www.transtats.bts.gov/Tables.asp?DB_ID=120
  • RITA运输数据收集: http://www.transtats.bts.gov/DataIndex.asp
  • 伦敦交通: http://www.tfl.gov.uk/info-for/open-data-users/our-feeds
  • 美国货运分析框架: http://ops.fhwa.dot.gov/freight/freight_analysis/faf/index.htm
  • 海洋交通 - 船只轨迹、港口呼叫等: https://www.marinetraffic.com/de/p/api-services

政府数据集

  • Archive-it: https://www.archive-it.org/explore?show=Collections
  • 澳大利亚: https://data.gov.au/
  • 澳大利亚: http://www.abs.gov.au/AUSSTATS/abs@.nsf/DetailsPage/3301.02009?OpenDocument
  • 加拿大: http://www.data.gc.ca/default.asp?lang=En&n=5BCD274E-1
  • 芝加哥: https://data.cityofchicago.org/
  • FDA: https://open.fda.gov/index.html
  • 联邦统计: http://www.fedstats.gov/cgi-bin/A2Z.cgi
  • 卫报世界政府数据: http://www.guardian.co.uk/world-government-data
  • HUD: http://www.huduser.org/portal/datasets/pdrdatas.html
  • 伦敦数据商店, 英国: http://data.london.gov.uk/dataset
  • 格拉斯哥, 苏格兰, 英国: http://data.glasgow.gov.uk/
  • 荷兰: https://data.overheid.nl/
  • 新西兰: http://www.stats.govt.nz/browse_for_stats.aspx
  • 纽约市betanyc: http://betanyc.us/
  • 纽约市开放数据: http://nycplatform.socrata.com/
  • 经合组织: http://www.oecd.org/document/0,3746,en_2649_201185_46462759_1_1_1_1,00.html
  • RITA: http://www.transtats.bts.gov/OT_Delay/OT_DelayCause1.asp
  • 旧金山数据集: http://datasf.org/
  • 世界银行: http://wdronline.worldbank.org/
  • 英国政府数据: http://data.gov.uk/data
  • 美国人口普查局: http://www.census.gov/data.html
  • 美国社区调查: http://www.census.gov/acs/www/data_documentation/data_release_info/
  • 美国联邦政府机构: http://www.data.gov/metric
  • 美国联邦政府数据目录: http://catalog.data.gov/dataset
  • 美国开放政府: http://www.data.gov/open-gov/
  • 英国2011年人口普查开放地图项目: http://www.alex-singleton.com/2011-census-open-atlas-project/
  • 联合国: http://data.un.org/
  • 美国CDC公共卫生数据集: http://www.cdc.gov/nchs/data_access/ftp_data.htm
  • 开放政府数据平台印度: http://www.data.gov.in/

数据挑战

  • 机器学习挑战: http://www.chalearn.org/
  • ICWSM数据挑战(自2009年): http://icwsm.cs.umbc.edu/
  • Kaggle竞赛数据: http://www.kaggle.com/
  • KDD杯由腾讯2012: https://www.kddcup2012.org/
  • Netflix奖: http://www.netflixprize.com/leaderboard
  • Yelp数据集挑战: http://www.yelp.com/dataset_challenge

机器学习数据集

  • eBay在线拍卖: http://www.modelingonlineauctions.com/datasets
  • IMDb数据库: http://www.imdb.com/interfaces
  • Keel存储库: http://sci2s.ugr.es/keel/datasets.php
  • Lending Club贷款数据: https://www.lendingclub.com/info/download-data.action
  • 机器学习数据集存储库: http://mldata.org/
  • 百万歌曲数据集: http://blog.echonest.com/post/3639160982/million-song-dataset
  • 更多歌曲数据集: http://labrosa.ee.columbia.edu/millionsong/pages/additional-datasets
  • MovieLens数据集: http://datahub.io/dataset/movielens
  • RDataMining R和数据挖掘电子书数据: http://www.rdatamining.com/data
  • 地球上注册的陨石: http://www.analyticbridge.com/profiles/blogs/registered-meteorites-that-has-impacted-on-earth-visualized
  • 旧金山餐厅数据集: http://missionlocal.org/san-francisco-restaurant-health-inspections/
  • UCI机器学习存储库: http://archive.ics.uci.edu/ml/
  • 多伦多大学Delve数据集: http://www.cs.toronto.edu/~delve/data/datasets.html
  • 雅虎评级和分类数据: http://webscope.sandbox.yahoo.com/catalog.php?datatype=r

自然语言数据集

  • 4000万实体上下文: https://code.google.com/p/wiki-links/downloads/list
  • ClueWeb09 FACC: http://lemurproject.org/clueweb09/FACC1/
  • ClueWeb12 FACC: http://lemurproject.org/clueweb12/FACC1/
  • Flickr个人分类法: http://www.isi.edu/~lerman/downloads/flickr/flickr_taxonomies.html
  • Google图书Ngrams: http://aws.amazon.com/datasets/8172056142375670
  • Google Web 5gram, 2006 (1T): https://catalog.ldc.upenn.edu/LDC2006T13
  • 古腾堡电子书列表: http://www.gutenberg.org/wiki/Gutenberg:Offline_Catalogs
  • Hansards: http://www.isi.edu/natural-language/download/hansard/
  • 机器翻译: http://statmt.org/wmt11/translation-task.html#download
  • SMS垃圾邮件收集: http://www.dt.fee.unicamp.br/~tiago/smsspamcollection/
  • USENET语料库: http://www.psych.ualberta.ca/~westburylab/downloads/usenetcorpus.download.html
  • WordNet: http://wordnet.princeton.edu/wordnet/download/

图像处理数据集

  • 2GB的猫照片: http://137.189.35.203/WebUI/CatDatabase/catData.html
  • 人脸识别基准: http://www.face-rec.org/databases/
  • ImageNet: http://www.image-net.org/

时间序列数据集

  • 时间序列数据图书馆: https://datamarket.com/data/list/?q=provider:tsdl
  • UC Riverside时间序列: http://www.cs.ucr.edu/~eamonn/time_series_data/

社会科学数据集

  • 中国酒店入住/退房数据: http://www.360doc.com/content/13/1105/13/7863900_326788919.shtml
  • CMU Enron电子邮件: http://www.cs.cmu.edu/~enron/
  • Facebook社交网络(自2007年): http://law.di.unimi.it/datasets.php
  • Facebook100(2005年): https://archive.org/details/oxford-2005-facebook-matrix
  • Foursquare(2010,2011): http://www.public.asu.edu/~hgao16/dataset.html
  • Foursquare(UMN/Sarwat, 2013): https://archive.org/details/201309_foursquare_dataset_umn
  • 一般社会调查(GSS): http://www3.norc.org/GSS+Website/
  • GetGlue(用户评级电视节目): http://bit.ly/1aL8XS0
  • GitHub存档: http://www.githubarchive.org/
  • ICPSR: http://www.icpsr.umich.edu/icpsrweb/ICPSR/index.jsp
  • 移动社交网络(UMASS): https://kdl.cs.umass.edu/display/public/Mobile+Social+Networks
  • PewResearch互联网项目: http://www.pewinternet.org/datasets/pages/2/
  • 社交网络: http://www.cs.cmu.edu/~jelsas/data/ancestry.com/
  • SourceForge图: http://www.nd.edu/~oss/Data/data.html
  • 泰坦尼克号生存数据集: https://github.com/caesar0301/awesome-public-datasets/blob/master/Datasets/titanic.csv.zip
  • Twitter图: http://an.kaist.ac.kr/traces/WWW2010.html
  • UC Berkeley的D-Lab档案: http://ucdata.berkeley.edu/
  • UCLA社会科学数据档案: http://dataarchives.ss.ucla.edu/Home.DataPortals.htm
  • UNIMI社交网络数据集: http://law.di.unimi.it/datasets.php
搜集汇总
数据集介绍
main_image_url
构建方式
awesome-public-datasets数据集的构建主要基于对网络公共资源的整理和汇总,包括来自博客、回答和用户响应的公共数据源。数据集的搜集和整理工作由GitHub上的开源项目维护,其中涵盖了多个领域的公共数据集。
使用方法
用户可以通过访问提供的链接直接获取所需数据集,也可以根据数据集的描述和分类进行筛选。对于特定的数据集,可能需要遵循相应网站的使用条款和条件。该数据集适用于数据分析师、研究人员以及机器学习工程师等,可用于数据挖掘、分析和模型训练等任务。
背景与挑战
背景概述
‘awesome-public-datasets’是一个由Caesar0301在GitHub上创建和维护的项目,旨在收集和整理网络上公开的数据集资源。该项目起始于2015年,汇集了来自不同领域的众多数据集,如气候、经济、能源、金融、生物、物理、医疗、地理信息、交通、政府公开数据等。这些数据集多来源于科研机构、政府部门和公共平台,为广大研究者和开发者提供了丰富的数据资源。
当前挑战
尽管‘awesome-public-datasets’提供了丰富的数据资源,但在使用过程中也存在一些挑战。首先,数据集的质量和更新频率参差不齐,使用前需仔细验证其准确性和时效性。其次,由于数据来源多样,数据格式和结构各异,整合和分析这些数据集需要较强的数据处理能力。此外,部分数据集可能存在版权或隐私问题,使用时需遵守相关法律法规。
常用场景
经典使用场景
awesome-public-datasets数据集作为公共数据集资源列表,其经典使用场景主要在于为研究者提供各类数据集的链接,辅助学术研究及数据挖掘工作。学者可根据自身研究领域,如气候、经济、能源、金融、生物、物理、医疗、地理信息、交通、政府公开数据等,快速定位并获取相关数据集,为研究提供数据支撑。
解决学术问题
该数据集解决了学术研究中数据获取困难的问题,尤其是在数据集分散、不易于发现的情况下,awesome-public-datasets提供了一个集中式的资源列表,极大地提升了数据检索的效率。此外,它还帮助研究者拓宽了数据来源,促进了跨学科的研究工作。
实际应用
在实际应用中,awesome-public-datasets为政策制定者、企业分析人员、社会学家等提供了丰富的数据资源,例如在公共健康、城市规划、市场分析等领域,利用这些数据集可以更好地理解问题、预测趋势、制定策略。
数据集最近研究
最新研究方向
‘awesome-public-datasets’数据集汇集了来自多个领域的公共数据集,覆盖了气候、经济、能源、金融、生物、物理、医疗保健、地理信息、交通、政府数据等多个领域。近期研究方向主要集中在数据挖掘、机器学习、大数据分析等方面,研究如何高效利用这些公开数据集进行知识发现和决策支持。此外,随着人工智能技术的不断发展,这些数据集在自然语言处理、图像识别、复杂网络分析等前沿领域的应用也正受到广泛关注。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作