five

Awesome Public Datasets|公共数据集数据集|数据资源数据集

收藏
github2024-02-27 更新2024-05-31 收录
公共数据集
数据资源
下载链接:
https://github.com/pursuit-of-42/awesome-public-datasets
下载链接
链接失效反馈
资源简介:
一个主题中心的高质量公共数据集列表,收集并整理自博客、答案和用户响应。

A curated list of high-quality public datasets centered around specific themes, compiled from blogs, answers, and user responses.
创建时间:
2019-11-28
原始信息汇总

Awesome Public Datasets 概述

农业

  • U.S. Department of Agricultures Nutrient Database: 提供营养数据。
  • U.S. Department of Agricultures PLANTS Database: 提供植物数据。

生物学

  • 1000 Genomes: 基因组数据。
  • American Gut (Microbiome Project): 微生物组项目数据。
  • Broad Bioimage Benchmark Collection (BBBC): 生物图像数据集。
  • Broad Cancer Cell Line Encyclopedia (CCLE): 癌症细胞系数据。
  • Cell Image Library: 细胞图像库。
  • Complete Genomics Public Data: 公共基因组数据。
  • EBI ArrayExpress: 基因表达数据。
  • EBI Protein Data Bank in Europe: 蛋白质数据库。
  • ENCODE project: 基因组注释项目数据。
  • Electron Microscopy Pilot Image Archive (EMPIAR): 电子显微镜图像档案。
  • Ensembl Genomes: 基因组数据库。
  • Gene Expression Omnibus (GEO): 基因表达数据库。
  • Gene Ontology (GO): 基因本体数据库。
  • Global Biotic Interactions (GloBI): 生物相互作用数据。
  • Harvard Medical School (HMS) LINCS Project: 药物敏感性项目数据。
  • Human Genome Diversity Project: 人类基因组多样性数据。
  • Human Microbiome Project (HMP): 人类微生物组项目数据。
  • ICOS PSP Benchmark: 系统生物学数据集。
  • International HapMap Project: 人类遗传变异数据。
  • Journal of Cell Biology DataViewer: 细胞生物学数据查看器。
  • KEGG: 基因组和生物化学数据库。
  • MIT Cancer Genomics Data: 癌症基因组数据。
  • NCBI Proteins: 蛋白质数据库。
  • NCBI Taxonomy: 生物分类数据库。
  • NCI Genomic Data Commons: 基因组数据共享平台。
  • NIH Microarray data: 微阵列数据。
  • OpenSNP genotypes data: 基因型数据。
  • Pathguid - Protein-Protein Interactions Catalog: 蛋白质相互作用目录。
  • Protein Data Bank: 蛋白质结构数据库。
  • Psychiatric Genomics Consortium: 精神病基因组联盟数据。
  • PubChem Project: 化学信息数据库。
  • PubGene (now Coremine Medical): 基因和疾病关联数据库。
  • Sanger Catalogue of Somatic Mutations in Cancer (COSMIC): 癌症体细胞突变目录。
  • Sanger Genomics of Drug Sensitivity in Cancer Project (GDSC): 癌症药物敏感性基因组项目数据。
  • Sequence Read Archive(SRA): 测序数据存档。
  • Stanford Microarray Data: 微阵列数据。
  • Stowers Institute Original Data Repository: 原始数据存储库。
  • Systems Science of Biological Dynamics (SSBD) Database: 生物动态系统科学数据库。
  • The Cancer Genome Atlas (TCGA), available via Broad GDAC: 癌症基因组图谱。
  • The Catalogue of Life: 生物物种目录。
  • The Personal Genome Project: 个人基因组项目数据。
  • UCSC Public Data: 加州大学圣克鲁兹分校公共数据。
  • UniGene: 基因特异性序列集合。
  • Universal Protein Resource (UnitProt): 蛋白质资源数据库。

气候+天气

  • Actuaries Climate Index: 气候指数数据。
  • Australian Weather: 澳大利亚天气数据。
  • Aviation Weather Center - Consistent, timely and accurate weather: 航空天气中心数据。
  • Brazilian Weather - Historical data: 巴西历史天气数据。
  • Canadian Meteorological Centre: 加拿大气象中心数据。
  • Climate Data from UEA (updated monthly): 东英吉利大学气候数据。
  • Global Climate Data Since 1929: 自1929年以来的全球气候数据。
  • NASA Global Imagery Browse Services: 美国宇航局全球图像浏览服务。
  • NOAA Bering Sea Climate: 美国国家海洋和大气管理局白令海气候数据。
  • NOAA Climate Datasets: 美国国家海洋和大气管理局气候数据集。
  • NOAA Realtime Weather Models: 美国国家海洋和大气管理局实时天气模型。
  • NOAA SURFRAD Meteorology and Radiation Datasets: 美国国家海洋和大气管理局SURFRAD气象和辐射数据集。
  • The World Bank Open Data Resources for Climate Change: 世界银行气候变化开放数据资源。
  • UEA Climatic Research Unit: 东英吉利大学气候研究单位数据。
  • WU Historical Weather Worldwide: 世界历史天气数据。
  • WorldClim - Global Climate Data: 全球气候数据。

复杂网络

  • AMiner Citation Network Dataset: 引用网络数据集。
  • CrossRef DOI URLs: DOI链接数据集。
  • DIMACS Road Networks Collection: 道路网络数据集。
  • NBER Patent Citations: 专利引用数据。
  • NIST complex networks data collection: 复杂网络数据收集。
  • Network Repository with Interactive Exploratory Analysis Tools: 网络存储库与交互式探索分析工具。
  • Protein-protein interaction network: 蛋白质相互作用网络。
  • PyPI and Maven Dependency Network: Python和Maven依赖网络。
  • Scopus Citation Database: Scopus引用数据库。
  • Small Network Data: 小型网络数据。
  • Stanford GraphBase: 斯坦福图形库。
  • Stanford Large Network Dataset Collection: 斯坦福大型网络数据集收集。
  • Stanford Longitudinal Network Data Sources: 斯坦福纵向网络数据源。
  • The Laboratory for Web Algorithmics (UNIMI): 网络算法实验室数据集。
  • UCI Network Data Repository: 加州大学欧文分校网络数据存储库。
  • UFL sparse matrix collection: 稀疏矩阵集合。

计算机网络

  • 3.5B Web Pages from CommonCrawl 2012: 2012年CommonCrawl的35亿网页。
  • 53.5B Web clicks of 100K users in Indiana Univ.: 印第安纳大学10万用户的535亿次网页点击。
  • CAIDA Internet Datasets: 互联网数据集。
  • CRAWDAD Wireless datasets from Dartmouth Univ.: 达特茅斯大学的无线数据集。
  • ClueWeb09 - 1B web pages: ClueWeb09的一亿网页。
  • ClueWeb12 - 733M web pages: ClueWeb12的7.33亿网页。
  • CommonCrawl Web Data over 7 years: 7年内的CommonCrawl网页数据。
  • Criteo click-through data: Criteo点击数据。
  • Internet-Wide Scan Data Repository: 互联网范围扫描数据存储库。
  • OONI: Open Observatory of Network Interference - Internet censorship data: 网络干扰开放观察站数据。
  • Open Mobile Data by MobiPerf: MobiPerf的开放移动数据。
  • The Peer-to-Peer Trace Archive: 点对点跟踪档案。
  • Rapid7 Sonar Internet Scans: Rapid7 Sonar互联网扫描。
  • UCSD Network Telescope, IPv4 /8 net: 加州大学圣地亚哥分校网络望远镜数据。

数据挑战

  • Bruteforce Database: 暴力破解数据库。
  • Challenges in Machine Learning: 机器学习挑战。
  • CrowdANALYTIX dataX: CrowdANALYTIX数据X。
  • DrivenData Competitions for Social Good: 社会公益驱动数据竞赛。
  • ICWSM Data Challenge (since 2009): 自2009年以来的ICWSM数据挑战。
  • KDD Cup by Tencent 2012: 2012年腾讯KDD杯。
  • Kaggle Competition Data: Kaggle竞赛数据。
  • Localytics Data Visualization Challenge: Localytics数据可视化挑战。
  • Netflix Prize: Netflix大奖赛数据。
  • Space Apps Challenge: 空间应用挑战。
  • Telecom Italia Big Data Challenge: 意大利电信大数据挑战。
  • TravisTorrent Dataset - MSR2017 Mining Challenge: TravisTorrent数据集 - MSR2017挖掘挑战。
  • TunedIT - Data mining & machine learning data sets, algorithms, challenges: TunedIT - 数据挖掘与机器学习数据集、算法、挑战。
  • Yelp Dataset Challenge: Yelp数据集挑战。

地球科学

  • AQUASTAT - Global water resources and uses: 全球水资源和使用情况。
  • BODC - marine data of ~22K vars: 英国海洋数据中心数据。
  • EOSDIS - NASAs earth observing system data: 美国宇航局地球观测系统数据。
  • Earth Models: 地球模型。
  • Integrated Marine Observing System (IMOS) - roughly 30TB of ocean measurements: 综合海洋观测系统数据。
  • Marinexplore - Open Oceanographic Data: 海洋探索 - 开放海洋学数据。
  • Alabama Real-Time Coastal Observing System: 阿拉巴马实时海岸观测系统。
  • National Estuarine Research Reserves System-Wide Monitoring Program: 国家河口研究储备系统范围监测计划。
  • Smithsonian Institution Global Volcano and Eruption Database: 史密森尼学会全球火山和喷发数据库。
  • USGS Earthquake Archives: 美国地质调查局地震档案。

经济学

  • American Economic Association (AEA): 美国经济协会数据。
  • EconData from UMD: 马里兰大学经济数据。
  • Economic Freedom of the World Data: 世界经济自由数据。
  • Historical MacroEconomic Statistics: 历史宏观经济统计数据。
  • INFORUM - Interindustry Forecasting at the University of Maryland: 马里兰大学产业间预测。
  • International Economics Database: 国际经济学数据库。
  • International Trade Statistics: 国际贸易统计数据。
  • Internet Product Code Database: 互联网产品代码数据库。
  • Joint External Debt Data Hub: 联合外债数据中心。
  • Jon Haveman International Trade Data Links: 乔恩·哈维曼国际贸易数据链接。
  • OpenCorporates Database of Companies in the World: 全球公司数据库。
  • Our World in Data: 我们的世界数据。
  • SciencesPo World Trade Gravity Datasets: 巴黎政治学院世界贸易引力数据集。
  • The Atlas of Economic Complexity: 经济复杂性图谱。
  • The Center for International Data: 国际数据中心。
  • The Observatory of Economic Complexity: 经济复杂性观察站。
  • UN Commodity Trade Statistics: 联合国商品贸易统计数据。
  • UN Human Development Reports: 联合国人类发展报告。

教育

  • College Scorecard Data: 大学记分卡数据。
  • Student Data from Free Code Camp: 免费编程营学生数据。

能源

  • AMPds: 能源使用数据集。
  • BLUEd: 建筑能效数据集。
  • COMBED: 多建筑能效数据集。
  • ECO: 能源消耗数据集。
  • EIA: 美国能源信息署数据。
  • Global Power Plant Database: 全球发电厂数据库。
  • HES - Household Electricity Study, UK: 英国家庭电力研究。
  • HFED: 家庭能源数据集。
  • PLAID - The Plug Load Appliance Identification Dataset: 插件负载设备识别数据集。
  • REDD: 住宅能源数据集。
  • Smart Meter Data Portal: 智能电表数据门户。
  • Tracebase: 能源使用跟踪数据集。
  • UK-DALE - UK Domestic Appliance-Level Electricity: 英国家用电器级电力数据。
  • WHITED: 白宫能源数据集。
  • iAWE: 室内能源使用数据集。

金融

  • Blockmodo Coin Registry: 加密货币注册表。
  • CBOE Futures Exchange: 芝加哥期权交易所期货交易数据。
  • Google Finance: 谷歌财经数据。
  • Google Trends: 谷歌趋势数据。
  • NASDAQ: 纳斯达克数据。
  • NYSE Market Data: 纽约证券交易所市场数据。
  • OANDA: OANDA外汇数据。
  • OSU Financial data: 俄亥俄州立大学金融数据。
  • Quandl: Quandl金融和经济数据。
  • St Louis Federal: 圣路易斯联邦储备银行数据。
  • Yahoo Finance: 雅虎财经数据。

GIS

  • ArcGIS Open Data portal: ArcGIS开放数据门户。
  • Cambridge, MA, US, GIS data on GitHub: 剑桥市GIS数据。
  • Factual Global Location Data: Factual全球位置数据。
  • IEEE Geoscience and Remote Sensing Society DASE Website: IEEE地球科学与遥感学会DASE网站。
  • Geo Maps - High Quality GeoJSON maps programmatically generated: 高质量GeoJSON地图。
  • Geo Spatial Data from ASU: 亚利桑那州立大学地理空间数据。
  • Geo Wiki Project - Citizen-driven Environmental Monitoring: 地理维基项目 - 公民驱动的环境监测。
  • GeoFabrik - OSM data extracted to a variety of formats: GeoFabrik提取的OSM数据。
AI搜集汇总
数据集介绍
main_image_url
构建方式
Awesome Public Datasets的构建过程依赖于自动化工具`apd-core`,该工具通过从博客、问答平台和用户反馈中收集高质量的主题中心化公共数据源,并进行整理和分类。数据集的内容涵盖了多个领域,包括农业、生物学、气候与天气、复杂网络等。为确保数据的准确性和一致性,贡献者需通过指定的方式提交数据,而非直接修改主文件。
使用方法
用户可以通过访问Awesome Public Datasets的GitHub页面,浏览不同主题下的数据源链接。每个数据源都附有简要说明和访问链接,用户可以根据需求直接下载或访问相关数据。对于希望贡献新数据源的用户,需遵循项目提供的贡献指南,通过`apd-core`工具提交数据,确保数据的一致性和可维护性。
背景与挑战
背景概述
Awesome Public Datasets 是一个由社区驱动的公共数据集集合,旨在为研究人员、开发者和数据科学家提供高质量、主题广泛的公开数据资源。该数据集由 awesomedata 组织维护,最初创建于2015年,其核心目标是通过整合来自博客、问答平台和用户反馈的数据源,构建一个全面且易于访问的数据集目录。Awesome Public Datasets 涵盖了农业、生物学、气候与天气、复杂网络、计算机网络、地球科学、经济学、教育、能源、金融、地理信息系统等多个领域,为跨学科研究提供了丰富的数据支持。该数据集的影响力不仅体现在其广泛的应用场景中,还在于其推动了数据开放共享的文化,成为许多研究项目和竞赛的重要数据来源。
当前挑战
Awesome Public Datasets 在解决领域问题和构建过程中面临多重挑战。首先,数据集的多样性和广泛性使得数据质量的标准化成为一大难题,不同来源的数据格式、更新频率和完整性差异较大,增加了数据整合和清洗的复杂性。其次,尽管大多数数据集是免费的,但部分数据仍涉及版权或访问限制,这在一定程度上限制了其可用性。此外,数据集的动态更新和维护需要持续的技术支持和社区贡献,如何确保数据的时效性和准确性是一个长期挑战。最后,随着数据量的不断增长,如何高效地组织、分类和检索数据,以满足用户多样化的需求,也是该数据集需要持续优化的方向。
常用场景
经典使用场景
Awesome Public Datasets作为一个广泛收录高质量公共数据源的集合,其经典使用场景主要集中在学术研究、数据分析和机器学习模型的训练与验证。研究人员和开发者可以通过该数据集快速获取跨领域的公开数据,如农业、生物学、气候与天气、复杂网络等,从而加速研究进程并提升模型的泛化能力。
解决学术问题
该数据集解决了学术界在数据获取和整合方面的常见问题,特别是在跨学科研究中,数据源的多样性和质量往往成为瓶颈。通过提供经过整理和验证的公共数据集,研究人员可以更专注于数据分析和模型构建,而不必耗费大量时间在数据收集和预处理上。此外,该数据集还为数据驱动的科学研究提供了坚实的基础,推动了多个领域的创新与突破。
实际应用
在实际应用中,Awesome Public Datasets被广泛用于政府决策支持、企业数据分析和教育领域。例如,农业数据集可用于优化作物种植策略,气候数据集则有助于预测极端天气事件。企业可以利用这些数据集进行市场分析和商业智能开发,而教育机构则将其作为教学资源,帮助学生掌握数据科学的基本技能。
数据集最近研究
最新研究方向
在数据科学和人工智能领域,Awesome Public Datasets作为一个广泛涵盖多个学科的高质量公共数据集集合,近年来在跨学科研究中扮演了重要角色。特别是在生物信息学、气候科学和复杂网络分析等领域,该数据集为研究者提供了丰富的数据资源,推动了基因组学、环境监测以及社交网络分析等前沿研究的发展。例如,在生物信息学中,1000 Genomes和ENCODE项目的数据被广泛应用于人类基因组变异和功能基因组学的研究;在气候科学领域,NASA和NOAA提供的气候数据集为全球气候变化模型提供了关键支持。此外,复杂网络分析中的AMiner Citation Network Dataset和Stanford Large Network Dataset Collection等数据集,为社交网络、知识图谱等研究提供了重要数据基础。这些数据集的应用不仅加速了科学研究的进程,也为解决全球性挑战如气候变化、疾病防控等提供了数据驱动的决策支持。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4099个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

中国区域地面气象要素驱动数据集 v2.0(1951-2024)

中国区域地面气象要素驱动数据集(China Meteorological Forcing Data,以下简称 CMFD)是为支撑中国区域陆面、水文、生态等领域研究而研发的一套高精度、高分辨率、长时间序列数据产品。本页面发布的 CMFD 2.0 包含了近地面气温、气压、比湿、全风速、向下短波辐射通量、向下长波辐射通量、降水率等气象要素,时间分辨率为 3 小时,水平空间分辨率为 0.1°,时间长度为 74 年(1951~2024 年),覆盖了 70°E~140°E,15°N~55°N 空间范围内的陆地区域。CMFD 2.0 融合了欧洲中期天气预报中心 ERA5 再分析数据与气象台站观测数据,并在辐射、降水数据产品中集成了采用人工智能技术制作的 ISCCP-ITP-CNN 和 TPHiPr 数据产品,其数据精度较 CMFD 的上一代产品有显著提升。 CMFD 历经十余年的发展,其间发布了多个重要版本。2019 年发布的 CMFD 1.6 是完全采用传统数据融合技术制作的最后一个 CMFD 版本,而本次发布的 CMFD 2.0 则是 CMFD 转向人工智能技术制作的首个版本。此版本与 1.6 版具有相同的时空分辨率和基础变量集,但在其它诸多方面存在大幅改进。除集成了采用人工智能技术制作的辐射和降水数据外,在制作 CMFD 2.0 的过程中,研发团队尽可能采用单一来源的再分析数据作为输入并引入气象台站迁址信息,显著缓解了 CMFD 1.6 中因多源数据拼接和气象台站迁址而产生的虚假气候突变。同时,CMFD 2.0 数据的时间长度从 CMFD 1.6 的 40 年大幅扩展到了 74 年,并将继续向后延伸。CMFD 2.0 的网格空间范围虽然与 CMFD 1.6 相同,但其有效数据扩展到了中国之外,能够更好地支持跨境区域研究。为方便用户使用,CMFD 2.0 还在基础变量集之外提供了若干衍生变量,包括近地面相对湿度、雨雪分离降水产品等。此外,CMFD 2.0 摒弃了 CMFD 1.6 中通过 scale_factor 和 add_offset 参数将实型数据化为整型数据的压缩技术,转而直接将实型数据压缩存储于 NetCDF4 格式文件中,从而消除了用户使用数据时进行解压换算的困扰。 本数据集原定版本号为 1.7,但鉴于本数据集从输入数据到研制技术都较上一代数据产品有了大幅的改变,故将其版本号重新定义为 2.0。

国家青藏高原科学数据中心 收录

中国区域交通网络数据集

该数据集包含中国各区域的交通网络信息,包括道路、铁路、航空和水路等多种交通方式的网络结构和连接关系。数据集详细记录了各交通节点的位置、交通线路的类型、长度、容量以及相关的交通流量信息。

data.stats.gov.cn 收录

resume-conversations-llm-training

这是一个高质量的职业对话数据集,适用于构建能够理解简历、职业和职业成长的AI。数据集以结构化的JSONL格式提供,包含关于职业发展、技术趋势和专业技能的现实问答,非常适合开发者和AI实践者用于聊天机器人、职业咨询工具或LLM微调。

huggingface 收录

Paper III (Walker et al. 2024)

Data products used in 3-D CMZ Paper III, Walker et al. (2024). The full cloud catalogue is provided in tabular format, along with a full CMZ map showing the clouds and their assigned IDs. For each cloud ID in the published catalogue there are: - Individual cube cutouts from the MOPRA 3mm CMZ survey (HC3N, HCN, and HNCO). - Individual cube cutouts from the APEX 1mm CMZ survey (13CO, C18O, and H2CO). - Cloud-averaged spectra of the ATCA H2CO 4.83 GHz line. - PV slices of the ATCA H2CO 4.83 GHz line, taken across the major axis of the source. - Where applicable, there are mask files which correspond to the different velocity components of the cloud. In these cases, there are two mask files per velocity component, corresponding to the different masking approaches described in the paper.

DataCite Commons 收录

QM9

该数据集名为QM9,包含了134,000个分子的信息,可用于生成点云的建模工作,同时也可应用于分子动力学的研究以及点云生成任务中。

arXiv 收录