awesome-public-datasets
收藏github2016-12-18 更新2024-05-31 收录
下载链接:
https://github.com/fahad92virgo/awesome-public-datasets
下载链接
链接失效反馈官方服务:
资源简介:
一个包含高质量公开数据集的列表,这些数据集来自公共领域,持续更新中。
A list of high-quality public datasets sourced from the public domain, continuously updated.
创建时间:
2016-06-17
原始信息汇总
数据集概述
农业
- U.S. Department of Agricultures PLANTS Database: 链接
生物学
- 1000 Genomes: 链接
- American Gut (Microbiome Project): 链接
- Broad Cancer Cell Line Encyclopedia (CCLE): 链接
- Broad Bioimage Benchmark Collection (BBBC): 链接
- Cell Image Library: 链接
- Collaborative Research in Computational Neuroscience (CRCNS): 链接
- Complete Genomics Public Data: 链接
- EBI ArrayExpress: 链接
- EBI Protein Data Bank in Europe: 链接
- Electron Microscopy Pilot Image Archive (EMPIAR): 链接
- ENCODE project: 链接
- Ensembl Genomes: 链接
- Gene Expression Omnibus (GEO): 链接
- Gene Ontology (GO): 链接
- Global Biotic Interactions (GloBI): 链接
- Harvard Medical School (HMS) LINCS Project: 链接
- Human Genome Diversity Project: 链接
- Human Microbiome Project (HMP): 链接
- ICOS PSP Benchmark: 链接
- International HapMap Project: 链接
- Journal of Cell Biology DataViewer: 链接
- MIT Cancer Genomics Data: 链接
- NCBI Proteins: 链接
- NCBI Taxonomy: 链接
- NeuroData: 链接
- NIH Microarray data: 链接 或 FTP链接
- OpenSNP genotypes data: 链接
- Pathguid - Protein-Protein Interactions Catalog: 链接
- Protein Data Bank: 链接
- Psychiatric Genomics Consortium: 链接
- PubChem Project: 链接
- PubGene (now Coremine Medical): 链接
- Sanger Catalogue of Somatic Mutations in Cancer (COSMIC): 链接
- Sanger Genomics of Drug Sensitivity in Cancer Project (GDSC): 链接
- Sequence Read Archive(SRA): 链接
- Stanford Microarray Data: 链接
- Stowers Institute Original Data Repository: 链接
- Systems Science of Biological Dynamics (SSBD) Database: 链接
- Temple University Hospital EEG Database: 链接
- The Cancer Genome Atlas (TCGA), available via Broad GDAC: 链接
- The Catalogue of Life: 链接
- The Personal Genome Project: 链接 或 PGP链接
- UCSC Public Data: 链接
- Universal Protein Resource (UnitProt): 链接
- UniGene: 链接
气候/天气
- Australian Weather: 链接
- Brazilian Weather - Historical data (In Portuguese): 链接
- Canadian Meteorological Centre: 链接
- Climate Data from UEA (updated monthly): 链接 和 FTP链接
- European Climate Assessment & Dataset: 链接
- Global Climate Data Since 1929: 链接
- NASA Global Imagery Browse Services: 链接
- NOAA Bering Sea Climate: 链接
- NOAA Climate Datasets: 链接
- NOAA Realtime Weather Models: 链接
- The World Bank Open Data Resources for Climate Change: 链接
- UEA Climatic Research Unit: 链接
- WorldClim - Global Climate Data: 链接
- WU Historical Weather Worldwide: 链接
复杂网络
- AMiner Citation Network Dataset: 链接
- CrossRef DOI URLs: 链接
- DBLP Citation dataset: 链接
- NBER Patent Citations: 链接
- Network Repository with Interactive Exploratory Analysis Tools: 链接
- NIST complex networks data collection: 链接
- Protein-protein interaction network: 链接
- PyPI and Maven Dependency Network: 链接
- Scopus Citation Database: 链接
- Small Network Data: 链接
- Stanford GraphBase (Steven Skiena): 链接
- Stanford Large Network Dataset Collection: 链接
- Stanford Longitudinal Network Data Sources: 链接
- The Koblenz Network Collection: 链接
- The Laboratory for Web Algorithmics (UNIMI): 链接
- The Nexus Network Repository: 链接
- UCI Network Data Repository: 链接
- UFL sparse matrix collection: 链接
- WSU Graph Database: 链接
- DIMACS Road Networks Collection: 链接
计算机网络
- 3.5B Web Pages from CommonCraw 2012: 链接
- 53.5B Web clicks of 100K users in Indiana Univ.: 链接
- CAIDA Internet Datasets: 链接
- ClueWeb09 - 1B web pages: 链接
- ClueWeb12 - 733M web pages: 链接
- CommonCrawl Web Data over 7 years: 链接
- CRAWDAD Wireless datasets from Dartmouth Univ.: 链接
- Criteo click-through data: 链接
- Open Mobile Data by MobiPerf: 链接
- Rapid7 Sonar Internet Scans: 链接
- UCSD Network Telescope, IPv4 /8 net: 链接
上下文数据
数据挑战
- Challenges in Machine Learning: 链接
- CrowdANALYTIX dataX: 链接
- D4D Challenge of Orange: 链接
- DrivenData Competitions for Social Good: 链接
- ICWSM Data Challenge (since 2009): 链接
- Kaggle Competition Data: 链接
- KDD Cup by Tencent 2012: 链接
- Localytics Data Visualization Challenge: 链接
- Netflix Prize: 链接
- Space Apps Challenge: 链接
- Telecom Italia Big Data Challenge: 链接
- Yelp Dataset Challenge: 链接
- Bruteforce Database: 链接
经济学
- American Economic Ass (AEA): 链接
- EconData from UMD: 链接
- Economic Freedom of the World Data: 链接
- Historical MacroEconomic Statistics: 链接
- International Trade Statistics: 链接
- Internet Product Code Database: 链接
- Joint External Debt Data Hub: 链接
- Jon Haveman International Trade Data Links: 链接
- OpenCorporates Database of Companies in the World: 链接
- Our World in Data: 链接
- SciencesPo World Trade Gravity Datasets: 链接
- The Atlas of Economic Complexity: 链接
- The Center for International Data: 链接
- The Observatory of Economic Complexity: 链接
- UN Commodity Trade Statistics: 链接
- UN Human Development Reports: 链接
教育
- Student Data from Free Code Camp: 链接
能源
- AMPds: 链接
- BLUEd: 链接
- COMBED: 链接
- Dataport: 链接
- ECO: 链接
- EIA: 链接
- HFED: 链接
- iAWE: 链接
- Plaid: 链接
- REDD: 链接
- UK-Dale: 链接
金融
搜集汇总
数据集介绍

构建方式
该数据集是通过从博客、回答和用户响应中收集和整理公共数据源而构建的。它包含了大量免费的开放数据集,但也包含一些非免费的数据集。
使用方法
用户可以通过数据集的GitHub页面获取数据,页面中包含了数据集的详细列表和链接。用户可以根据自己的需求选择相应的数据集,并通过提供的链接进行访问和下载。
背景与挑战
背景概述
数据集名称"awesome-public-datasets"是一个收集和整理自博客、回答和用户响应的公开数据源列表。该数据集主要由sindresorhus和caesar0301维护,收录了多个领域的公共数据集,其中大部分是免费的,但也有一些不是。该数据集的创建旨在为研究者和开发者提供方便,以促进数据驱动的研究和项目开发。自其创建以来,该数据集已经在学术界和工业界产生了广泛的影响,成为了数据共享与开放的典范。
当前挑战
尽管"awesome-public-datasets"数据集在推动数据开放和共享方面做出了巨大贡献,但在构建和使用过程中也面临一些挑战。首先,数据集的多样性和异质性使得整合和标准化成为一个难题。其次,数据集的质量和更新频率也是用户关注的焦点。此外,如何确保数据集的长期可用性和维护也是一个挑战。在解决领域问题时,例如图像分类、自然语言处理等,数据集的标注质量直接影响到模型的性能。
常用场景
经典使用场景
该数据集收集和整理了来自博客、回答和用户响应的公共数据源,主要用于学术研究、数据分析和机器学习等领域。其经典使用场景包括为研究者提供丰富的数据资源,以便于进行数据挖掘、模式识别和预测分析等。
解决学术问题
该数据集解决了学术研究中数据获取困难的问题,提供了覆盖多个领域的公共数据,使得研究者能够轻松地获取到所需的数据集,从而推动了学术研究的进展。同时,它也帮助研究者避免了数据收集和整理的繁琐工作,提高了研究效率。
实际应用
在实际应用中,该数据集可用于教育、商业智能、健康医疗、金融分析等多个领域。例如,在教育领域,它可以作为教学资源,帮助学生了解和学习数据科学;在商业智能领域,它可以用于市场分析、用户行为预测等。
数据集最近研究
最新研究方向
该数据集涉及多个领域,其最新研究方向包括生物信息学、气候与气象学、复杂网络、计算机网络安全、环境科学、金融学、地质学、健康医疗、图像处理、机器学习等。在这些领域中,研究人员正专注于探索生物信息数据在基因组学中的应用,气候数据在气候变化研究中的作用,复杂网络数据在社交网络分析中的应用,网络安全数据在防范网络攻击中的价值,环境数据在生态保护与城市规划中的影响,金融数据在市场预测与风险控制中的应用,地质数据在地壳运动与资源勘探中的意义,健康医疗数据在疾病预防与治疗中的作用,图像处理数据在人工智能与模式识别中的应用,以及机器学习数据在算法优化与模型训练中的重要性。
以上内容由遇见数据集搜集并总结生成



