awesome-public-datasets
收藏github2018-08-17 更新2024-05-31 收录
下载链接:
https://github.com/DataWookie/awesome-public-datasets
下载链接
链接失效反馈官方服务:
资源简介:
这是一个包含高质量公共数据集的列表,涵盖了农业、生物学、气候/天气、复杂网络等多个领域的数据集。
This is a list of high-quality public datasets, encompassing various fields such as agriculture, biology, climate/weather, and complex networks.
创建时间:
2015-09-16
原始信息汇总
数据集概述
农业
- U.S. Department of Agricultures PLANTS Database
生物学
- 1000 Genomes
- American Gut (Microbiome Project)
- Collaborative Research in Computational Neuroscience (CRCNS)
- Gene Expression Omnibus (GEO)
- Human Microbiome Project (HMP)
- MIT Cancer Genomics Data
- Protein Data Bank
- 链接: http://pdb.org/
- PubChem Project
- Stanford Microarray Data
- UCSC Public Data
气候/天气
- Australian Weather
- Canadian Meteorological Centre
- NOAA Climate Datasets
- The World Bank Open Data Resources for Climate Change
计算机网络
- CAIDA Internet Datasets
- CommonCrawl Web Data over 7 years
数据挑战
- Kaggle Competition Data
- Yelp Dataset Challenge
经济学
- American Economic Ass (AEA)
- EconData from UMD
能源
- AMPds
- EIA
金融
- NASDAQ
- Quandl
地质
- USGS Earthquake Archives
政府
- Australia (data.gov.au)
- Canada
- U.S. Census Bureau
医疗保健
- Medicare Data Engine of medicare.gov Data
图像处理
- Stanford Dogs Dataset
机器学习
- UCI Machine Learning Repository
自然语言
- DBpedia
- Google Books Ngrams (2.2TB)
物理
- CERN Open Data Portal
心理学/认知
- OSU Cognitive Modeling Repository Datasets
公共领域
- Amazon
搜索引擎
- Academic Torrents of data sharing from UMB
以上数据集涵盖了多个领域,包括农业、生物学、气候、计算机网络、经济学、能源、金融、地质、政府、医疗保健、图像处理、机器学习、自然语言、物理、心理学、公共领域和搜索引擎等。每个数据集都提供了相应的链接,方便用户直接访问。
搜集汇总
数据集介绍

构建方式
awesome-public-datasets 是一个收集自博客、回答和用户响应的公共数据集列表。大部分列出的数据集是免费的,但也有一些不是。该数据集的构建主要通过整理和汇总网络上可用的公共数据资源。
特点
该数据集的特点在于其广泛性,涵盖了从农业、生物学到气候、金融等众多领域的公共数据集。它不仅包含了结构化数据,还包含了非结构化数据,如文本和图像等。此外,该数据集还注重数据的时效性和多样性。
使用方法
用户可以通过数据集的GitHub页面浏览和搜索所需的数据集。每个数据集通常都包含了一个链接,指向数据集的详细页面或直接下载链接。用户可以根据自己的需求选择合适的数据集,并遵循数据集的使用条款进行使用。
背景与挑战
背景概述
awesome-public-datasets是一个收集和整理自博客、回答和用户响应的公共数据集列表。该数据集创建于2016年,由sindresorhus维护,主要目的是为了方便研究人员和数据科学家快速找到并使用公共数据集。数据集涵盖了多个领域,包括农业、生物学、气候/天气、复杂网络、计算机网络、数据挑战、经济学、能源、金融、地质学、地理信息系统、政府、健康护理、图像处理、机器学习、博物馆、自然语言处理、物理学、心理学/认知科学、公共领域、搜索引擎等。其对相关领域的影响力在于提供了一个全面的数据集资源,有助于推动各领域的数据驱动研究和应用开发。
当前挑战
尽管awesome-public-datasets提供了一个丰富的数据集资源,但在使用过程中也面临一些挑战。首先,数据集的质量和一致性各不相同,这给数据预处理和整合带来了困难。其次,部分数据集的更新和维护不及时,可能导致数据过时。此外,数据集的版权和使用许可信息不明确,可能会引发知识产权方面的争议。最后,数据集的多样性虽然丰富,但对于特定领域的研究可能仍需更专业和深入的数据集来满足研究需求。
常用场景
经典使用场景
该数据集广泛收集了来自不同领域的公共数据集,经典的使用场景包括学术研究、商业智能分析、政府公开数据透明化等。例如,在学术研究中,研究人员可以从中获取特定领域的数据集,以便进行数据分析、模型训练和学术出版。
衍生相关工作
该数据集衍生了许多相关的经典工作,包括但不限于数据可视化、数据挖掘竞赛、机器学习模型的基准测试等。这些工作进一步推动了数据科学领域的发展,并为社会各界提供了实用的工具和方法。
数据集最近研究
最新研究方向
awesome-public-datasets 数据集涵盖了多个领域,近期研究方向主要集中在大规模数据处理、复杂数据网络分析、自然语言处理以及机器学习模型的优化等方面。这些研究对于推动数据科学领域的发展具有重要意义,特别是在数据挖掘、知识发现和智能决策支持系统中。
以上内容由遇见数据集搜集并总结生成



