Awesome Public Datasets
收藏github2023-03-03 更新2024-05-31 收录
下载链接:
https://github.com/redaktor/awesome-public-datasets
下载链接
链接失效反馈资源简介:
这是一个收集和整理自互联网上的大规模公共数据集的列表,涵盖气候、经济、能源、金融、生物、物理、医疗、地理空间和交通等多个领域。
This is a comprehensive list of large-scale public datasets collected and curated from the internet, spanning multiple domains including climate, economics, energy, finance, biology, physics, healthcare, geospatial, and transportation.
创建时间:
2014-12-05
原始信息汇总
数据集分类概述
气候数据集
- 澳大利亚天气: http://www.bom.gov.au/climate/dwo/
- 气候数据: http://www.cru.uea.ac.uk/cru/data/temperature/ 和 ftp://ftp.cmdl.noaa.gov/
- 全球气候数据: http://www.tutiempo.net/en/Climate
- NOAA Bering Sea Climate: http://www.beringclimate.noaa.gov/
- NOAA气候数据集: http://ncdc.noaa.gov/data-access/quick-links
- WU历史天气: http://www.wunderground.com/history/index.html
经济数据集
- 美国经济协会(AEA): http://www.aeaweb.org/RFE/toc.php?show=complete
- EconData: http://inforumweb.umd.edu/econdata/econdata.html
- 互联网产品代码数据库: http://www.upcdatabase.com/
- 世界银行: http://data.worldbank.org/indicator
能源数据集
- AMPds: http://ampds.org/
- BLUEd: http://nilm.cmubi.org/
- COMBED: http://combed.github.io/
- Dataport: https://dataport.pecanstreet.org/
- ECO: http://www.vs.inf.ethz.ch/res/show.html?what=eco-data
- iAWE: http://iawe.github.io/
- HFED: http://hfed.github.io/
- Plaid: http://plaidplug.com/
- REDD: http://redd.csail.mit.edu/
- UK-Dale: http://www.doc.ic.ac.uk/~dk3810/data/
金融数据集
- CBOE期货交易所: http://cfe.cboe.com/Data/
- Google Finance: https://www.google.com/finance
- Google Trends: http://www.google.com/trends?q=google&ctab=0&geo=all&date=all&sort=0
- NASDAQ: https://data.nasdaq.com/
- OANDA: http://www.oanda.com/
- OSU金融数据: http://fisher.osu.edu/fin/osudata.htm
- Quandl: http://www.quandl.com/
- 圣路易斯联邦: http://research.stlouisfed.org/fred2/
- Yahoo Finance: http://finance.yahoo.com/
生物学数据集
- CRCNS: http://crcns.org/data-sets
- 基因表达综合(GEO): http://www.ncbi.nlm.nih.gov/geo/
- 人类微生物组项目: http://www.hmpdacc.org/reference_genomes/reference_genomes.php
- MIT癌症基因组数据: http://www.broadinstitute.org/cgi-bin/cancer/datasets.cgi
- NIH微阵列数据: ftp://ftp.ncbi.nih.gov/pub/geo/DATA/supplementary/series/GSE6532/
- 蛋白质结构: http://www.infobiotic.net/PSPbenchmarks/
- 蛋白质数据银行(PDB): http://pdb.org/
- 公共基因数据: http://www.pubgene.org/
- 斯坦福微阵列数据: http://smd.stanford.edu/
- UniGene: http://www.ncbi.nlm.nih.gov/unigene
- 个人基因组项目: http://www.personalgenomes.org/ 或 https://my.pgp-hms.org/public_genetic_data
- 1000基因组: http://www.1000genomes.org/data
- UCSC公共数据: http://hgdownload.soe.ucsc.edu/downloads.html
物理学数据集
- NASA: http://nssdc.gsfc.nasa.gov/nssdc/obtaining_data.html
医疗保健数据集
- EHDP大型健康数据集: http://www.ehdp.com/vitalnet/datasets.htm
- Gapminder: http://www.gapminder.org/data/
- 医疗保险数据文件: http://go.cms.gov/19xxPN4
地理空间数据集
- EOSDIS: http://sedac.ciesin.columbia.edu/data/sets/browse
- Factual全球位置数据: http://www.factual.com/
- 地理空间数据: http://geodacenter.asu.edu/datalist/
- OpenStreetMap: http://wiki.openstreetmap.org/wiki/Downloading_data
- GeoNames: http://www.geonames.org/
- BODC(海洋数据): http://www.bodc.ac.uk/data/where_to_find_data/
- GADM(全球行政区域数据库): http://www.gadm.org/
交通运输数据集
- 航空公司数据: http://stat-computing.org/dataexpo/2009/the-data.html
- 机场及其位置: http://www.infochimps.com/datasets/airports-and-their-locations
- 自行车共享数据系统: https://github.com/BetaNYC/Bike-Share-Data-Best-Practices/wiki/Bike-Share-Data-Systems
- 美国国内航班边缘数据: http://data.memect.com/?p=229
- 半百万Hubway骑行: http://hubwaydatachallenge.org/trip-history-data/
- 纽约出租车行程数据: https://archive.org/details/nycTaxiTripData2013
- OpenFlights: http://openflights.org/data.html
- RITA航空公司准时性能数据: http://www.transtats.bts.gov/Tables.asp?DB_ID=120
- RITA运输数据收集: http://www.transtats.bts.gov/DataIndex.asp
- 伦敦交通: http://www.tfl.gov.uk/info-for/open-data-users/our-feeds
- 美国货运分析框架: http://ops.fhwa.dot.gov/freight/freight_analysis/faf/index.htm
政府数据集
- Archive-it: https://www.archive-it.org/explore?show=Collections
- 澳大利亚: http://www.abs.gov.au/AUSSTATS/abs@.nsf/DetailsPage/3301.02009?OpenDocument
- 加拿大: http://www.data.gc.ca/default.asp?lang=En&n=5BCD274E-1
- 芝加哥: https://data.cityofchicago.org/
- FDA: https://open.fda.gov/index.html
- 联邦统计: http://www.fedstats.gov/cgi-bin/A2Z.cgi
- 卫报世界政府数据: http://www.guardian.co.uk/world-government-data
- HUD: http://www.huduser.org/portal/datasets/pdrdatas.html
- 伦敦数据存储: http://data.london.gov.uk/dataset
- 格拉斯哥: http://data.glasgow.gov.uk/
- 荷兰: https://data.overheid.nl/
- 新西兰: http://www.stats.govt.nz/browse_for_stats.aspx
- 纽约betanyc: http://betanyc.us/
- 纽约开放数据: http://nycplatform.socrata.com/
- OECD: http://www.oecd.org/document/0,3746,en_2649_201185_46462759_1_1_1_1,00.html
- RITA: http://www.transtats.bts.gov/OT_Delay/OT_DelayCause1.asp
- 旧金山数据集: http://datasf.org/
- 世界银行: http://wdronline.worldbank.org/
- 英国政府数据: http://data.gov.uk/data
- 美国人口普查局: http://www.census.gov/data.html
- 美国联邦政府机构: http://www.data.gov/metric
- 美国联邦政府数据目录: http://catalog.data.gov/dataset
- 美国开放政府: http://www.data.gov/open-gov/
- 英国2011年人口普查开放地图项目: http://www.alex-singleton.com/2011-census-open-atlas-project/
- 联合国: http://data.un.org/
- 美国CDC公共卫生数据集: http://www.cdc.gov/nchs/data_access/ftp_data.htm
- 开放政府数据平台印度: http://www.data.gov.in/
数据挑战
- 机器学习挑战: http://www.chalearn.org/
- ICWSM数据挑战: http://icwsm.cs.umbc.edu/
- Kaggle竞赛数据: http://www.kaggle.com/
- KDD杯: https://www.kddcup2012.org/
- Netflix奖: http://www.netflixprize.com/leaderboard
- Yelp数据挑战: http://www.yelp.com/dataset_challenge
机器学习数据集
- eBay在线拍卖: http://www.modelingonlineauctions.com/datasets
- IMDb数据库: http://www.imdb.com/interfaces
- Keel存储库: http://sci2s.ugr.es/keel/datasets.php
- Lending Club贷款数据: https://www.lendingclub.com/info/download-data.action
- 机器学习数据集存储库: http://mldata.org/
- 百万歌曲数据集: http://blog.echonest.com/post/3639160982/million-song-dataset
- 更多歌曲数据集: http://labrosa.ee.columbia.edu/millionsong/pages/additional-datasets
- MovieLens数据集: http://datahub.io/dataset/movielens
- RDataMining R和数据挖掘电子书数据: http://www.rdatamining.com/data
- 地球上注册的陨石: http://www.analyticbridge.com/profiles/blogs/registered-meteorites-that-has-impacted-on-earth-visualized
- 旧金山餐厅数据集: http://missionlocal.org/san-francisco-restaurant-health-inspections/
- UCI机器学习存储库: http://archive.ics.uci.edu/ml/
- 多伦多大学Delve数据集: http://www.cs.toronto.edu/~delve/data/datasets.html
- Yahoo评级和分类数据: http://webscope.sandbox.yahoo.com/catalog.php?datatype=r
自然语言处理数据集
- 4000万实体上下文: https://code.google.com/p/wiki-links/downloads/list
- ClueWeb09 FACC: http://lemurproject.org/clueweb09/FACC1/
- ClueWeb12 FACC: http://lemurproject.org/clueweb12/FACC1/
- Flickr个人分类: http://www.isi.edu/~lerman/downloads/flickr/flickr_taxonomies.html
- Google图书Ngrams: http://aws.amazon.com/datasets/8172056142375670
- Google Web 5gram: https://catalog.ldc.upenn.edu/LDC2006T13
- Gutenberg电子书列表: http://www.gutenberg.org/wiki/Gutenberg:Offline_Catalogs
- Hansards: http://www.isi.edu/natural-language/download/hansard/
- 机器翻译: http://statmt.org/wmt11/translation-task.html#download
- SMS垃圾邮件收集: http://www.dt.fee.unicamp.br/~tiago/smsspamcollection/
- USENET语料库: http://www.psych.ualberta.ca/~westburylab/downloads/usenetcorpus.download.html
- WordNet: http://wordnet.princeton.edu/wordnet/download/
图像处理数据集
- 2GB的猫照片: http://137.189.35.203/WebUI/CatDatabase/catData.html
- 面部识别基准: http://www.face-rec.org/databases/
- ImageNet: http://www.image-net.org/
时间序列数据集
- 时间序列数据图书馆: https://datamarket.com/data/list/?q=provider:tsdl
- UC Riverside时间序列: http://www.cs.ucr.edu/~eamonn/time_series_data/
社会科学数据集
- 中国酒店入住/退房数据: http://www.360doc.com/content/13/1105/13/7863900_326788919.shtml
- CMU Enron电子邮件: http://www.cs.cmu.edu/~enron/
- Facebook社交网络: http://law.di.unimi.it/datasets.php
- Facebook100: https://archive.org/details/oxford-2005-facebook-matrix
- Foursquare: http://www.public.asu.edu/~hgao16/dataset.html
- Foursquare(UMN/Sarwat, 2013): https://archive.org/details/201309_foursquare_dataset_umn
- 一般社会调查(GSS): http://www3.norc.org/GSS+Website/
- GetGlue(用户评级电视节目): http://bit.ly/1aL8XS0
- GitHub存档: http://www.githubarchive.org/
- ICPSR: http://www.icpsr.umich.edu/icpsrweb/ICPSR/index.jsp
- 移动社交网络(UMASS): https://kdl.cs.umass.edu/display/public/Mobile+Social+Networks
- PewResearch互联网项目: http://www.pewinternet.org/datasets/pages/2/
- 社交网络: http://www.cs.cmu.edu/~jelsas/data/ancestry.com/
- SourceForge图: http://www.nd.edu/~oss/Data/data.html
- 泰坦尼克号生存数据集: https://github.com/caesar0301/awesome-public-datasets/blob/master/Datasets/titanic.csv.zip
- Twitter图: http://an.kaist.ac.kr/traces/WWW2010.html
- UC Berkeley的D-Lab存档: http://ucdata.berkeley.edu/
- UCLA社会科学数据档案: http://dataarchives.ss.ucla.edu/Home.DataPortals.htm
- UNIMI社交网络数据集: http://law.di.unimi.it/datasets.php
- 全球大学: http://univ.cc/
- UPJOHN就业研究: http://www.upjohn.org/erdc/erdc.html
- Yahoo图和社交数据: http://webscope.sandbox.yahoo.com/catalog.php?datatype=g
- Youtube图: http://netsg.cs.sfu.ca/youtubedata/
复杂网络数据集
- CrossRef DOI URLs: https://archive.org/details/doi-urls
- DBLP引用数据集: https://kdl.cs.umass.edu/display/public/DBLP
- NBER专利引用: http://nber.org/patents/
- NIST复杂网络数据收集: http://math.nist.gov/~RPozo/complex_datasets.html
- 蛋白质-蛋白质相互作用网络: http://vlado.fmf.uni-lj.si/pub/networks/data/bio/Yeast/Yeast.htm
- PyPI和Maven依赖网络: http://ogirardot.wordpress.com/2013/01/31/sharing-pypimaven-dependency-data/
- Scopus引用数据库: http://www.elsevier.com/online-tools/scopus
- 斯坦福图形库(Steven Skiena): http://www3.cs.stonybrook.edu/~algorith/implement/graphbase/implement.shtml
- **斯坦福大型网络
AI搜集汇总
数据集介绍

构建方式
Awesome Public Datasets 数据集通过整合来自博客、问答平台以及用户反馈的公开数据源构建而成。该数据集涵盖了多个领域,包括气候、经济、能源、金融、生物学、物理学、医疗保健、地理空间、交通运输、政府数据、机器学习、自然语言处理、图像处理、时间序列、社会科学、复杂网络、计算机网络等。每个领域的数据源均经过筛选和整理,确保其可用性和多样性。数据集的构建过程注重数据的开放性和可访问性,部分数据源为免费提供,部分则需付费获取。
使用方法
使用 Awesome Public Datasets 数据集时,用户可通过访问其 GitHub 页面获取完整的数据源列表。每个数据源均附有链接和简要说明,用户可根据需求直接访问相关网站下载数据。对于需要付费的数据源,数据集也提供了明确的提示。此外,用户可通过数据集的分类结构快速定位感兴趣领域的数据。建议用户在使用前仔细阅读数据源的许可协议和使用条款,以确保合规使用。对于研究人员和开发者,该数据集可作为数据探索、模型训练和分析的基础资源,支持跨领域的研究和应用开发。
背景与挑战
背景概述
Awesome Public Datasets 是一个广泛收集和整理公共数据源的资源库,涵盖了从气候、经济、能源到生物学、物理学、医疗保健等多个领域的数据集。该数据集由GitHub用户caesar0301于2014年创建,旨在为研究人员、数据科学家和开发者提供一个便捷的公共数据访问平台。其数据来源多样,包括政府机构、科研机构、企业以及开源社区等。该数据集的出现极大地促进了跨学科研究的发展,尤其是在数据驱动的科学研究和机器学习领域,为全球的研究者提供了丰富的数据支持。
当前挑战
Awesome Public Datasets 面临的主要挑战包括数据集的多样性和复杂性。首先,由于数据集涵盖的领域广泛,数据的格式、结构和质量差异较大,这为数据的整合和分析带来了困难。其次,部分数据集可能涉及隐私或版权问题,限制了其公开使用的范围。此外,数据集的更新频率和维护也是一个挑战,部分数据源可能因机构政策或技术原因停止更新,导致数据过时。最后,尽管数据集数量庞大,但缺乏统一的元数据标准和描述,使得用户在选择和使用数据集时面临信息不对称的问题。
常用场景
经典使用场景
Awesome Public Datasets 作为一个广泛收集和整理公共数据源的资源库,其经典使用场景涵盖了多个学科领域的研究与开发。例如,在气候学研究中,研究者可以利用该数据集中的全球气候数据来分析气候变化趋势;在经济学领域,数据集提供了世界银行和美国经济协会的数据,支持宏观经济政策的制定与评估;在生物学领域,基因表达数据和蛋白质结构数据为生物信息学研究提供了丰富的素材。
解决学术问题
该数据集通过整合多领域的公共数据,解决了学术研究中数据获取困难的问题。例如,在机器学习领域,UCI机器学习库和Kaggle竞赛数据为算法开发与验证提供了标准化的数据集;在自然语言处理领域,Google Books Ngrams和ClueWeb系列数据为语言模型训练和文本分析提供了大规模语料库。这些数据集的开放共享极大地促进了跨学科研究的合作与创新。
实际应用
Awesome Public Datasets 的实际应用场景广泛,涵盖了从政府决策到商业分析的多个领域。例如,政府部门可以利用该数据集中的交通数据优化城市交通规划;能源公司可以通过分析AMPds和REDD等能源数据集,优化电力分配和需求预测;金融行业则可以利用Google Finance和NASDAQ数据开发投资策略和风险评估模型。这些应用场景展示了数据集在实际问题解决中的巨大潜力。
数据集最近研究
最新研究方向
近年来,Awesome Public Datasets作为一个广泛涵盖多个领域的公共数据集集合,逐渐成为数据科学和机器学习研究的重要资源。在气候科学领域,研究者利用该数据集中的全球气候数据,深入分析气候变化趋势及其对生态系统的影响。经济学领域的研究者则通过该数据集中的世界银行和美国经济协会数据,探讨全球经济波动与政策效应。在能源领域,AMPds和REDD等数据集为智能电网和能源管理系统的优化提供了关键数据支持。此外,生物学领域的研究者利用该数据集中的基因表达和蛋白质结构数据,推动了精准医学和药物研发的进展。这些研究不仅拓展了数据科学的应用边界,也为跨学科合作提供了新的契机。
以上内容由AI搜集并总结生成



