five

awesome-public-datasets

收藏
github2016-12-18 更新2024-05-31 收录
下载链接:
https://github.com/fahad92virgo/awesome-public-datasets
下载链接
链接失效反馈
官方服务:
资源简介:
一个包含高质量公开数据集的列表,这些数据集来自公共领域,持续更新中。

A list of high-quality public datasets sourced from the public domain, continuously updated.
创建时间:
2016-06-17
原始信息汇总

数据集概述

农业

  • U.S. Department of Agricultures PLANTS Database: 链接

生物学

  • 1000 Genomes: 链接
  • American Gut (Microbiome Project): 链接
  • Broad Cancer Cell Line Encyclopedia (CCLE): 链接
  • Broad Bioimage Benchmark Collection (BBBC): 链接
  • Cell Image Library: 链接
  • Collaborative Research in Computational Neuroscience (CRCNS): 链接
  • Complete Genomics Public Data: 链接
  • EBI ArrayExpress: 链接
  • EBI Protein Data Bank in Europe: 链接
  • Electron Microscopy Pilot Image Archive (EMPIAR): 链接
  • ENCODE project: 链接
  • Ensembl Genomes: 链接
  • Gene Expression Omnibus (GEO): 链接
  • Gene Ontology (GO): 链接
  • Global Biotic Interactions (GloBI): 链接
  • Harvard Medical School (HMS) LINCS Project: 链接
  • Human Genome Diversity Project: 链接
  • Human Microbiome Project (HMP): 链接
  • ICOS PSP Benchmark: 链接
  • International HapMap Project: 链接
  • Journal of Cell Biology DataViewer: 链接
  • MIT Cancer Genomics Data: 链接
  • NCBI Proteins: 链接
  • NCBI Taxonomy: 链接
  • NeuroData: 链接
  • NIH Microarray data: 链接FTP链接
  • OpenSNP genotypes data: 链接
  • Pathguid - Protein-Protein Interactions Catalog: 链接
  • Protein Data Bank: 链接
  • Psychiatric Genomics Consortium: 链接
  • PubChem Project: 链接
  • PubGene (now Coremine Medical): 链接
  • Sanger Catalogue of Somatic Mutations in Cancer (COSMIC): 链接
  • Sanger Genomics of Drug Sensitivity in Cancer Project (GDSC): 链接
  • Sequence Read Archive(SRA): 链接
  • Stanford Microarray Data: 链接
  • Stowers Institute Original Data Repository: 链接
  • Systems Science of Biological Dynamics (SSBD) Database: 链接
  • Temple University Hospital EEG Database: 链接
  • The Cancer Genome Atlas (TCGA), available via Broad GDAC: 链接
  • The Catalogue of Life: 链接
  • The Personal Genome Project: 链接PGP链接
  • UCSC Public Data: 链接
  • Universal Protein Resource (UnitProt): 链接
  • UniGene: 链接

气候/天气

  • Australian Weather: 链接
  • Brazilian Weather - Historical data (In Portuguese): 链接
  • Canadian Meteorological Centre: 链接
  • Climate Data from UEA (updated monthly): 链接FTP链接
  • European Climate Assessment & Dataset: 链接
  • Global Climate Data Since 1929: 链接
  • NASA Global Imagery Browse Services: 链接
  • NOAA Bering Sea Climate: 链接
  • NOAA Climate Datasets: 链接
  • NOAA Realtime Weather Models: 链接
  • The World Bank Open Data Resources for Climate Change: 链接
  • UEA Climatic Research Unit: 链接
  • WorldClim - Global Climate Data: 链接
  • WU Historical Weather Worldwide: 链接

复杂网络

  • AMiner Citation Network Dataset: 链接
  • CrossRef DOI URLs: 链接
  • DBLP Citation dataset: 链接
  • NBER Patent Citations: 链接
  • Network Repository with Interactive Exploratory Analysis Tools: 链接
  • NIST complex networks data collection: 链接
  • Protein-protein interaction network: 链接
  • PyPI and Maven Dependency Network: 链接
  • Scopus Citation Database: 链接
  • Small Network Data: 链接
  • Stanford GraphBase (Steven Skiena): 链接
  • Stanford Large Network Dataset Collection: 链接
  • Stanford Longitudinal Network Data Sources: 链接
  • The Koblenz Network Collection: 链接
  • The Laboratory for Web Algorithmics (UNIMI): 链接
  • The Nexus Network Repository: 链接
  • UCI Network Data Repository: 链接
  • UFL sparse matrix collection: 链接
  • WSU Graph Database: 链接
  • DIMACS Road Networks Collection: 链接

计算机网络

  • 3.5B Web Pages from CommonCraw 2012: 链接
  • 53.5B Web clicks of 100K users in Indiana Univ.: 链接
  • CAIDA Internet Datasets: 链接
  • ClueWeb09 - 1B web pages: 链接
  • ClueWeb12 - 733M web pages: 链接
  • CommonCrawl Web Data over 7 years: 链接
  • CRAWDAD Wireless datasets from Dartmouth Univ.: 链接
  • Criteo click-through data: 链接
  • Open Mobile Data by MobiPerf: 链接
  • Rapid7 Sonar Internet Scans: 链接
  • UCSD Network Telescope, IPv4 /8 net: 链接

上下文数据

数据挑战

  • Challenges in Machine Learning: 链接
  • CrowdANALYTIX dataX: 链接
  • D4D Challenge of Orange: 链接
  • DrivenData Competitions for Social Good: 链接
  • ICWSM Data Challenge (since 2009): 链接
  • Kaggle Competition Data: 链接
  • KDD Cup by Tencent 2012: 链接
  • Localytics Data Visualization Challenge: 链接
  • Netflix Prize: 链接
  • Space Apps Challenge: 链接
  • Telecom Italia Big Data Challenge: 链接
  • Yelp Dataset Challenge: 链接
  • Bruteforce Database: 链接

经济学

  • American Economic Ass (AEA): 链接
  • EconData from UMD: 链接
  • Economic Freedom of the World Data: 链接
  • Historical MacroEconomic Statistics: 链接
  • International Trade Statistics: 链接
  • Internet Product Code Database: 链接
  • Joint External Debt Data Hub: 链接
  • Jon Haveman International Trade Data Links: 链接
  • OpenCorporates Database of Companies in the World: 链接
  • Our World in Data: 链接
  • SciencesPo World Trade Gravity Datasets: 链接
  • The Atlas of Economic Complexity: 链接
  • The Center for International Data: 链接
  • The Observatory of Economic Complexity: 链接
  • UN Commodity Trade Statistics: 链接
  • UN Human Development Reports: 链接

教育

  • Student Data from Free Code Camp: 链接

能源

金融

搜集汇总
数据集介绍
main_image_url
构建方式
该数据集是通过从博客、回答和用户响应中收集和整理公共数据源而构建的。它包含了大量免费的开放数据集,但也包含一些非免费的数据集。
使用方法
用户可以通过数据集的GitHub页面获取数据,页面中包含了数据集的详细列表和链接。用户可以根据自己的需求选择相应的数据集,并通过提供的链接进行访问和下载。
背景与挑战
背景概述
数据集名称"awesome-public-datasets"是一个收集和整理自博客、回答和用户响应的公开数据源列表。该数据集主要由sindresorhus和caesar0301维护,收录了多个领域的公共数据集,其中大部分是免费的,但也有一些不是。该数据集的创建旨在为研究者和开发者提供方便,以促进数据驱动的研究和项目开发。自其创建以来,该数据集已经在学术界和工业界产生了广泛的影响,成为了数据共享与开放的典范。
当前挑战
尽管"awesome-public-datasets"数据集在推动数据开放和共享方面做出了巨大贡献,但在构建和使用过程中也面临一些挑战。首先,数据集的多样性和异质性使得整合和标准化成为一个难题。其次,数据集的质量和更新频率也是用户关注的焦点。此外,如何确保数据集的长期可用性和维护也是一个挑战。在解决领域问题时,例如图像分类、自然语言处理等,数据集的标注质量直接影响到模型的性能。
常用场景
经典使用场景
该数据集收集和整理了来自博客、回答和用户响应的公共数据源,主要用于学术研究、数据分析和机器学习等领域。其经典使用场景包括为研究者提供丰富的数据资源,以便于进行数据挖掘、模式识别和预测分析等。
解决学术问题
该数据集解决了学术研究中数据获取困难的问题,提供了覆盖多个领域的公共数据,使得研究者能够轻松地获取到所需的数据集,从而推动了学术研究的进展。同时,它也帮助研究者避免了数据收集和整理的繁琐工作,提高了研究效率。
实际应用
在实际应用中,该数据集可用于教育、商业智能、健康医疗、金融分析等多个领域。例如,在教育领域,它可以作为教学资源,帮助学生了解和学习数据科学;在商业智能领域,它可以用于市场分析、用户行为预测等。
数据集最近研究
最新研究方向
该数据集涉及多个领域,其最新研究方向包括生物信息学、气候与气象学、复杂网络、计算机网络安全、环境科学、金融学、地质学、健康医疗、图像处理、机器学习等。在这些领域中,研究人员正专注于探索生物信息数据在基因组学中的应用,气候数据在气候变化研究中的作用,复杂网络数据在社交网络分析中的应用,网络安全数据在防范网络攻击中的价值,环境数据在生态保护与城市规划中的影响,金融数据在市场预测与风险控制中的应用,地质数据在地壳运动与资源勘探中的意义,健康医疗数据在疾病预防与治疗中的作用,图像处理数据在人工智能与模式识别中的应用,以及机器学习数据在算法优化与模型训练中的重要性。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作