Awesome Public Datasets|公共数据集数据集|数据资源数据集
收藏Awesome Public Datasets 概述
农业
- U.S. Department of Agricultures Nutrient Database: 提供营养数据。
- U.S. Department of Agricultures PLANTS Database: 提供植物数据。
生物学
- 1000 Genomes: 基因组数据。
- American Gut (Microbiome Project): 微生物组项目数据。
- Broad Bioimage Benchmark Collection (BBBC): 生物图像数据集。
- Broad Cancer Cell Line Encyclopedia (CCLE): 癌症细胞系数据。
- Cell Image Library: 细胞图像库。
- Complete Genomics Public Data: 公共基因组数据。
- EBI ArrayExpress: 基因表达数据。
- EBI Protein Data Bank in Europe: 蛋白质数据库。
- ENCODE project: 基因组注释项目数据。
- Electron Microscopy Pilot Image Archive (EMPIAR): 电子显微镜图像档案。
- Ensembl Genomes: 基因组数据库。
- Gene Expression Omnibus (GEO): 基因表达数据库。
- Gene Ontology (GO): 基因本体数据库。
- Global Biotic Interactions (GloBI): 生物相互作用数据。
- Harvard Medical School (HMS) LINCS Project: 药物敏感性项目数据。
- Human Genome Diversity Project: 人类基因组多样性数据。
- Human Microbiome Project (HMP): 人类微生物组项目数据。
- ICOS PSP Benchmark: 系统生物学数据集。
- International HapMap Project: 人类遗传变异数据。
- Journal of Cell Biology DataViewer: 细胞生物学数据查看器。
- KEGG: 基因组和生物化学数据库。
- MIT Cancer Genomics Data: 癌症基因组数据。
- NCBI Proteins: 蛋白质数据库。
- NCBI Taxonomy: 生物分类数据库。
- NCI Genomic Data Commons: 基因组数据共享平台。
- NIH Microarray data: 微阵列数据。
- OpenSNP genotypes data: 基因型数据。
- Pathguid - Protein-Protein Interactions Catalog: 蛋白质相互作用目录。
- Protein Data Bank: 蛋白质结构数据库。
- Psychiatric Genomics Consortium: 精神病基因组联盟数据。
- PubChem Project: 化学信息数据库。
- PubGene (now Coremine Medical): 基因和疾病关联数据库。
- Sanger Catalogue of Somatic Mutations in Cancer (COSMIC): 癌症体细胞突变目录。
- Sanger Genomics of Drug Sensitivity in Cancer Project (GDSC): 癌症药物敏感性基因组项目数据。
- Sequence Read Archive(SRA): 测序数据存档。
- Stanford Microarray Data: 微阵列数据。
- Stowers Institute Original Data Repository: 原始数据存储库。
- Systems Science of Biological Dynamics (SSBD) Database: 生物动态系统科学数据库。
- The Cancer Genome Atlas (TCGA), available via Broad GDAC: 癌症基因组图谱。
- The Catalogue of Life: 生物物种目录。
- The Personal Genome Project: 个人基因组项目数据。
- UCSC Public Data: 加州大学圣克鲁兹分校公共数据。
- UniGene: 基因特异性序列集合。
- Universal Protein Resource (UnitProt): 蛋白质资源数据库。
气候+天气
- Actuaries Climate Index: 气候指数数据。
- Australian Weather: 澳大利亚天气数据。
- Aviation Weather Center - Consistent, timely and accurate weather: 航空天气中心数据。
- Brazilian Weather - Historical data: 巴西历史天气数据。
- Canadian Meteorological Centre: 加拿大气象中心数据。
- Climate Data from UEA (updated monthly): 东英吉利大学气候数据。
- Global Climate Data Since 1929: 自1929年以来的全球气候数据。
- NASA Global Imagery Browse Services: 美国宇航局全球图像浏览服务。
- NOAA Bering Sea Climate: 美国国家海洋和大气管理局白令海气候数据。
- NOAA Climate Datasets: 美国国家海洋和大气管理局气候数据集。
- NOAA Realtime Weather Models: 美国国家海洋和大气管理局实时天气模型。
- NOAA SURFRAD Meteorology and Radiation Datasets: 美国国家海洋和大气管理局SURFRAD气象和辐射数据集。
- The World Bank Open Data Resources for Climate Change: 世界银行气候变化开放数据资源。
- UEA Climatic Research Unit: 东英吉利大学气候研究单位数据。
- WU Historical Weather Worldwide: 世界历史天气数据。
- WorldClim - Global Climate Data: 全球气候数据。
复杂网络
- AMiner Citation Network Dataset: 引用网络数据集。
- CrossRef DOI URLs: DOI链接数据集。
- DIMACS Road Networks Collection: 道路网络数据集。
- NBER Patent Citations: 专利引用数据。
- NIST complex networks data collection: 复杂网络数据收集。
- Network Repository with Interactive Exploratory Analysis Tools: 网络存储库与交互式探索分析工具。
- Protein-protein interaction network: 蛋白质相互作用网络。
- PyPI and Maven Dependency Network: Python和Maven依赖网络。
- Scopus Citation Database: Scopus引用数据库。
- Small Network Data: 小型网络数据。
- Stanford GraphBase: 斯坦福图形库。
- Stanford Large Network Dataset Collection: 斯坦福大型网络数据集收集。
- Stanford Longitudinal Network Data Sources: 斯坦福纵向网络数据源。
- The Laboratory for Web Algorithmics (UNIMI): 网络算法实验室数据集。
- UCI Network Data Repository: 加州大学欧文分校网络数据存储库。
- UFL sparse matrix collection: 稀疏矩阵集合。
计算机网络
- 3.5B Web Pages from CommonCrawl 2012: 2012年CommonCrawl的35亿网页。
- 53.5B Web clicks of 100K users in Indiana Univ.: 印第安纳大学10万用户的535亿次网页点击。
- CAIDA Internet Datasets: 互联网数据集。
- CRAWDAD Wireless datasets from Dartmouth Univ.: 达特茅斯大学的无线数据集。
- ClueWeb09 - 1B web pages: ClueWeb09的一亿网页。
- ClueWeb12 - 733M web pages: ClueWeb12的7.33亿网页。
- CommonCrawl Web Data over 7 years: 7年内的CommonCrawl网页数据。
- Criteo click-through data: Criteo点击数据。
- Internet-Wide Scan Data Repository: 互联网范围扫描数据存储库。
- OONI: Open Observatory of Network Interference - Internet censorship data: 网络干扰开放观察站数据。
- Open Mobile Data by MobiPerf: MobiPerf的开放移动数据。
- The Peer-to-Peer Trace Archive: 点对点跟踪档案。
- Rapid7 Sonar Internet Scans: Rapid7 Sonar互联网扫描。
- UCSD Network Telescope, IPv4 /8 net: 加州大学圣地亚哥分校网络望远镜数据。
数据挑战
- Bruteforce Database: 暴力破解数据库。
- Challenges in Machine Learning: 机器学习挑战。
- CrowdANALYTIX dataX: CrowdANALYTIX数据X。
- DrivenData Competitions for Social Good: 社会公益驱动数据竞赛。
- ICWSM Data Challenge (since 2009): 自2009年以来的ICWSM数据挑战。
- KDD Cup by Tencent 2012: 2012年腾讯KDD杯。
- Kaggle Competition Data: Kaggle竞赛数据。
- Localytics Data Visualization Challenge: Localytics数据可视化挑战。
- Netflix Prize: Netflix大奖赛数据。
- Space Apps Challenge: 空间应用挑战。
- Telecom Italia Big Data Challenge: 意大利电信大数据挑战。
- TravisTorrent Dataset - MSR2017 Mining Challenge: TravisTorrent数据集 - MSR2017挖掘挑战。
- TunedIT - Data mining & machine learning data sets, algorithms, challenges: TunedIT - 数据挖掘与机器学习数据集、算法、挑战。
- Yelp Dataset Challenge: Yelp数据集挑战。
地球科学
- AQUASTAT - Global water resources and uses: 全球水资源和使用情况。
- BODC - marine data of ~22K vars: 英国海洋数据中心数据。
- EOSDIS - NASAs earth observing system data: 美国宇航局地球观测系统数据。
- Earth Models: 地球模型。
- Integrated Marine Observing System (IMOS) - roughly 30TB of ocean measurements: 综合海洋观测系统数据。
- Marinexplore - Open Oceanographic Data: 海洋探索 - 开放海洋学数据。
- Alabama Real-Time Coastal Observing System: 阿拉巴马实时海岸观测系统。
- National Estuarine Research Reserves System-Wide Monitoring Program: 国家河口研究储备系统范围监测计划。
- Smithsonian Institution Global Volcano and Eruption Database: 史密森尼学会全球火山和喷发数据库。
- USGS Earthquake Archives: 美国地质调查局地震档案。
经济学
- American Economic Association (AEA): 美国经济协会数据。
- EconData from UMD: 马里兰大学经济数据。
- Economic Freedom of the World Data: 世界经济自由数据。
- Historical MacroEconomic Statistics: 历史宏观经济统计数据。
- INFORUM - Interindustry Forecasting at the University of Maryland: 马里兰大学产业间预测。
- International Economics Database: 国际经济学数据库。
- International Trade Statistics: 国际贸易统计数据。
- Internet Product Code Database: 互联网产品代码数据库。
- Joint External Debt Data Hub: 联合外债数据中心。
- Jon Haveman International Trade Data Links: 乔恩·哈维曼国际贸易数据链接。
- OpenCorporates Database of Companies in the World: 全球公司数据库。
- Our World in Data: 我们的世界数据。
- SciencesPo World Trade Gravity Datasets: 巴黎政治学院世界贸易引力数据集。
- The Atlas of Economic Complexity: 经济复杂性图谱。
- The Center for International Data: 国际数据中心。
- The Observatory of Economic Complexity: 经济复杂性观察站。
- UN Commodity Trade Statistics: 联合国商品贸易统计数据。
- UN Human Development Reports: 联合国人类发展报告。
教育
- College Scorecard Data: 大学记分卡数据。
- Student Data from Free Code Camp: 免费编程营学生数据。
能源
- AMPds: 能源使用数据集。
- BLUEd: 建筑能效数据集。
- COMBED: 多建筑能效数据集。
- ECO: 能源消耗数据集。
- EIA: 美国能源信息署数据。
- Global Power Plant Database: 全球发电厂数据库。
- HES - Household Electricity Study, UK: 英国家庭电力研究。
- HFED: 家庭能源数据集。
- PLAID - The Plug Load Appliance Identification Dataset: 插件负载设备识别数据集。
- REDD: 住宅能源数据集。
- Smart Meter Data Portal: 智能电表数据门户。
- Tracebase: 能源使用跟踪数据集。
- UK-DALE - UK Domestic Appliance-Level Electricity: 英国家用电器级电力数据。
- WHITED: 白宫能源数据集。
- iAWE: 室内能源使用数据集。
金融
- Blockmodo Coin Registry: 加密货币注册表。
- CBOE Futures Exchange: 芝加哥期权交易所期货交易数据。
- Google Finance: 谷歌财经数据。
- Google Trends: 谷歌趋势数据。
- NASDAQ: 纳斯达克数据。
- NYSE Market Data: 纽约证券交易所市场数据。
- OANDA: OANDA外汇数据。
- OSU Financial data: 俄亥俄州立大学金融数据。
- Quandl: Quandl金融和经济数据。
- St Louis Federal: 圣路易斯联邦储备银行数据。
- Yahoo Finance: 雅虎财经数据。
GIS
- ArcGIS Open Data portal: ArcGIS开放数据门户。
- Cambridge, MA, US, GIS data on GitHub: 剑桥市GIS数据。
- Factual Global Location Data: Factual全球位置数据。
- IEEE Geoscience and Remote Sensing Society DASE Website: IEEE地球科学与遥感学会DASE网站。
- Geo Maps - High Quality GeoJSON maps programmatically generated: 高质量GeoJSON地图。
- Geo Spatial Data from ASU: 亚利桑那州立大学地理空间数据。
- Geo Wiki Project - Citizen-driven Environmental Monitoring: 地理维基项目 - 公民驱动的环境监测。
- GeoFabrik - OSM data extracted to a variety of formats: GeoFabrik提取的OSM数据。

中国区域地面气象要素驱动数据集 v2.0(1951-2024)
中国区域地面气象要素驱动数据集(China Meteorological Forcing Data,以下简称 CMFD)是为支撑中国区域陆面、水文、生态等领域研究而研发的一套高精度、高分辨率、长时间序列数据产品。本页面发布的 CMFD 2.0 包含了近地面气温、气压、比湿、全风速、向下短波辐射通量、向下长波辐射通量、降水率等气象要素,时间分辨率为 3 小时,水平空间分辨率为 0.1°,时间长度为 74 年(1951~2024 年),覆盖了 70°E~140°E,15°N~55°N 空间范围内的陆地区域。CMFD 2.0 融合了欧洲中期天气预报中心 ERA5 再分析数据与气象台站观测数据,并在辐射、降水数据产品中集成了采用人工智能技术制作的 ISCCP-ITP-CNN 和 TPHiPr 数据产品,其数据精度较 CMFD 的上一代产品有显著提升。 CMFD 历经十余年的发展,其间发布了多个重要版本。2019 年发布的 CMFD 1.6 是完全采用传统数据融合技术制作的最后一个 CMFD 版本,而本次发布的 CMFD 2.0 则是 CMFD 转向人工智能技术制作的首个版本。此版本与 1.6 版具有相同的时空分辨率和基础变量集,但在其它诸多方面存在大幅改进。除集成了采用人工智能技术制作的辐射和降水数据外,在制作 CMFD 2.0 的过程中,研发团队尽可能采用单一来源的再分析数据作为输入并引入气象台站迁址信息,显著缓解了 CMFD 1.6 中因多源数据拼接和气象台站迁址而产生的虚假气候突变。同时,CMFD 2.0 数据的时间长度从 CMFD 1.6 的 40 年大幅扩展到了 74 年,并将继续向后延伸。CMFD 2.0 的网格空间范围虽然与 CMFD 1.6 相同,但其有效数据扩展到了中国之外,能够更好地支持跨境区域研究。为方便用户使用,CMFD 2.0 还在基础变量集之外提供了若干衍生变量,包括近地面相对湿度、雨雪分离降水产品等。此外,CMFD 2.0 摒弃了 CMFD 1.6 中通过 scale_factor 和 add_offset 参数将实型数据化为整型数据的压缩技术,转而直接将实型数据压缩存储于 NetCDF4 格式文件中,从而消除了用户使用数据时进行解压换算的困扰。 本数据集原定版本号为 1.7,但鉴于本数据集从输入数据到研制技术都较上一代数据产品有了大幅的改变,故将其版本号重新定义为 2.0。
国家青藏高原科学数据中心 收录
中国区域交通网络数据集
该数据集包含中国各区域的交通网络信息,包括道路、铁路、航空和水路等多种交通方式的网络结构和连接关系。数据集详细记录了各交通节点的位置、交通线路的类型、长度、容量以及相关的交通流量信息。
data.stats.gov.cn 收录
resume-conversations-llm-training
这是一个高质量的职业对话数据集,适用于构建能够理解简历、职业和职业成长的AI。数据集以结构化的JSONL格式提供,包含关于职业发展、技术趋势和专业技能的现实问答,非常适合开发者和AI实践者用于聊天机器人、职业咨询工具或LLM微调。
huggingface 收录
Paper III (Walker et al. 2024)
Data products used in 3-D CMZ Paper III, Walker et al. (2024). The full cloud catalogue is provided in tabular format, along with a full CMZ map showing the clouds and their assigned IDs. For each cloud ID in the published catalogue there are: - Individual cube cutouts from the MOPRA 3mm CMZ survey (HC3N, HCN, and HNCO). - Individual cube cutouts from the APEX 1mm CMZ survey (13CO, C18O, and H2CO). - Cloud-averaged spectra of the ATCA H2CO 4.83 GHz line. - PV slices of the ATCA H2CO 4.83 GHz line, taken across the major axis of the source. - Where applicable, there are mask files which correspond to the different velocity components of the cloud. In these cases, there are two mask files per velocity component, corresponding to the different masking approaches described in the paper.
DataCite Commons 收录
QM9
该数据集名为QM9,包含了134,000个分子的信息,可用于生成点云的建模工作,同时也可应用于分子动力学的研究以及点云生成任务中。
arXiv 收录
