open-datasets
收藏github2019-07-12 更新2024-05-31 收录
下载链接:
https://github.com/Pandinosaurus/open-datasets
下载链接
链接失效反馈官方服务:
资源简介:
这是一个公开数据源的列表,收集并整理自博客、问答和用户反馈。每个数据集都被标记为单个或集合,并标明了访问方式(免费、付费或需要登录)。
This is a list of publicly available data sources, collected and organized from blogs, Q&A platforms, and user feedback. Each dataset is labeled as either individual or collective, and the access method (free, paid, or requiring login) is indicated.
创建时间:
2018-09-12
原始信息汇总
数据集概述
通用数据集
- Cornell Natural Language Visual Reasoning Dataset
- 类型:单个数据集
- 访问:免费
- Structured Wikipedia Data
- 类型:集合
- 访问:免费
- 许可证:GNU License
- UCI Machine Learning Repository
- 类型:集合
- 访问:免费
- Socrata Open Datasets
- 类型:集合
- 访问:免费
- Datasets for Data Mining and Data Science
- 类型:集合
- 访问:免费
- List of datasets for machine learning research
- 类型:集合
- 访问:免费
- Lexical Database for English
- 类型:单个数据集
- 访问:免费
- Wolfram Data Repository
- 类型:集合
- 访问:免费
农业数据集
- U.S. Department of Agricultures PLANTS Database
- 类型:单个数据集
- 访问:免费
- U.S. Department of Agricultures Nutrient Database
- 类型:集合
- 访问:免费
生物学数据集
- 1000 Genomes
- 类型:集合
- 访问:免费
- American Gut (Microbiome Project)
- 类型:集合
- 访问:免费
- Broad Bioimage Benchmark Collection (BBBC)
- 类型:集合
- 访问:免费
- Broad Cancer Cell Line Encyclopedia (CCLE)
- 类型:集合
- 访问:需登录
- Cell Image Library
- 类型:集合
- 访问:免费
- Complete Genomics Public Data
- 类型:集合
- 访问:免费
- EBI ArrayExpress
- 类型:集合
- 访问:免费
- EBI Protein Data Bank in Europe
- 类型:集合
- 访问:免费
- Electron Microscopy Pilot Image Archive (EMPIAR)
- 类型:集合
- 访问:免费
- ENCODE project
- 类型:集合
- 访问:免费
- Ensembl Genomes
- 类型:集合
- 访问:免费
- Gene Expression Omnibus (GEO)
- 类型:集合
- 访问:免费
- Gene Ontology (GO)
- 类型:集合
- 访问:免费
- Global Biotic Interactions (GloBI)
- 类型:单个数据集
- 访问:免费
- Harvard Medical School (HMS) LINCS Project
- 类型:集合
- 访问:免费
- Human Genome Diversity Project
- 类型:单个数据集
- 访问:免费
- Human Microbiome Project (HMP)
- 类型:集合
- 访问:免费
- ICOS PSP Benchmark
- 类型:集合
- 访问:免费
- International HapMap Project
- 类型:单个数据集
- 访问:免费
- Journal of Cell Biology DataViewer
- 类型:集合
- 访问:免费
- MIT Cancer Genomics Data
- 类型:集合
- 访问:免费
- NCBI Proteins
- 类型:集合
- 访问:需登录
- NCBI Taxonomy
- 类型:单个数据集
- 访问:需登录
- NCI Genomic Data Commons
- 类型:集合
- 访问:免费
- NIH Microarray data
- 类型:集合
- 访问:免费
- OpenSNP genotypes data
- 类型:集合
- 访问:需登录
- Pathguid - Protein-Protein Interactions Catalog
- 类型:集合
- 访问:免费
- Protein Data Bank
- 类型:集合
- 访问:需登录
- Psychiatric Genomics Consortium
- 类型:集合
- 访问:需登录
- PubChem Project
- 类型:集合
- 访问:免费
- PubGene (now Coremine Medical)
- 类型:集合
- 访问:需登录
- Sanger Catalogue of Somatic Mutations in Cancer (COSMIC)
- 类型:集合
- 访问:需登录
- Sanger Genomics of Drug Sensitivity in Cancer Project (GDSC)
- 类型:集合
- 访问:免费
- Sequence Read Archive(SRA)
- 类型:集合
- 访问:免费
- Stowers Institute Original Data Repository
- 类型:集合
- 访问:免费
- Systems Science of Biological Dynamics (SSBD) Database
- 类型:集合
- 访问:免费
- The Cancer Genome Atlas (TCGA), available via Broad GDAC
- 类型:集合
- 访问:免费
- The Catalogue of Life
- 类型:集合
- 访问:免费
- The Personal Genome Project
- 类型:集合
- 访问:需登录
- UCSC Public Data
- 类型:集合
- 访问:免费
- UniGene
- 类型:集合
- 访问:需登录
- Universal Protein Resource (UnitProt)
- 类型:集合
- 访问:免费
气候/天气数据集
- Actuaries Climate Index
- 类型:单个数据集
- 访问:需登录
- Australian Weather
- 类型:集合
- 访问:免费
- Aviation Weather Center - Consistent, timely and accurate weather information for the world airspace system
- 类型:集合
- 访问:需登录
- Brazilian Weather - Historical data (In Portuguese)
- 类型:集合
- 访问:需登录
- Canadian Meteorological Centre
- 类型:集合
- 访问:免费
- Climate Data from UEA (updated monthly)
- 类型:集合
- 访问:免费
- European Climate Assessment & Dataset
- 类型:集合
- 访问:免费
- Global Climate Data Since 1929
- 类型:集合
- 访问:免费
- NASA Global Imagery Browse Services
- 类型:集合
- 访问:需登录
- NOAA Bering Sea Climate
- 类型:集合
- 访问:免费
- NOAA Climate Datasets
- 类型:集合
- 访问:免费
- NOAA Realtime Weather Models
- 类型:集合
- 访问:免费
- NOAA SURFRAD Meteorology and Radiation Datasets
- 类型:集合
- 访问:免费
- The World Bank Open Data Resources for Climate Change
- 类型:集合
- 访问:免费
- UEA Climatic Research Unit
- 类型:网站不可用
- WorldClim - Global Climate Data
- 类型:单个数据集
- 访问:免费
- WU Historical Weather Worldwide
- 类型:集合
- 访问:需登录
复杂网络数据集
- AMiner Citation Network Dataset
- 类型:单个数据集
- 访问:免费
- CrossRef DOI URLs
- 类型:单个数据集
- 访问:需登录
- DBLP Citation dataset
- 类型:单个数据集
- 访问:需登录
- DIMACS Road Networks Collection
- 类型:集合
- 访问:免费
- NBER Patent Citations
- 类型:集合
- 访问:免费
- Network Repository with Interactive Exploratory Analysis Tools
- 类型:集合
- 访问:需登录
- NIST complex networks data collection
- 类型:集合
- 访问:免费
- Protein-protein interaction network
- 类型:集合
- 访问:免费
- PyPI and Maven Dependency Network
- 类型:集合
- 访问:免费
- Scopus Citation Database
- 类型:单个数据集
- 访问:付费
- Small Network Data
- 类型:集合
- 访问:免费
- Stanford GraphBase (Steven Skiena)
- 类型:集合
- 访问:免费
- Stanford Large Network Dataset Collection
- 类型:集合
- 访问:免费
- Stanford Longitudinal Network Data Sources
- 类型:集合
- 访问:免费
- The Koblenz Network Collection
- 类型:集合
- 访问:免费
- The Laboratory for Web Algorithmics (UNIMI)
- 类型:集合
- 访问:免费
- UCI Network Data Repository
- 类型:集合
- 访问:免费
- UFL sparse matrix collection
- 类型:集合
- 访问:免费
- WSU Graph Database
- 类型:集合
- 访问:免费
计算机网络数据集
- 3.5B Web Pages from CommonCrawl 2012
- 类型:集合
- 访问:需登录
- 53.5B Web clicks of 100K users in Indiana Univ.
- 类型:单个数据集
- 访问:需登录
- CAIDA Internet Datasets
- 类型:集合
- 访问:免费
- ClueWeb09 - 1B web pages
- 类型:单个数据集
- 访问:需登录
- ClueWeb12 - 733M web pages
- 类型:单个数据集
- 访问:需登录
- CommonCrawl Web Data over 7 years
- 类型:集合
- 访问:付费
- CRAWDAD Wireless datasets from Dartmouth Univ.
- 类型:集合
- 访问:需登录
- Criteo click-through data
- 类型:集合
- 访问:免费
- OONI: Open Observatory of Network Interference - Internet censorship data
- 类型:集合
- 访问:免费
- Open Mobile Data by MobiPerf
- 类型:集合
- 访问:付费
- Rapid7 Sonar Internet Scans
- 类型:单个数据集
- 访问:免费
- UCSD Network Telescope, IPv4 /8 net
- 类型:集合
- 访问:付费
数据挑战数据集
- Bruteforce Database
- 类型:集合
- 访问:付费
- Challenges in Machine Learning
- 类型:集合
- 访问:免费
- CrowdANALYTIX dataX
- 类型:集合
- 访问:需登录
- D4D Challenge of Orange
- 类型:集合
- 访问:需登录
- DrivenData Competitions for Social Good
- 类型:集合
- 访问:需登录
- ICWSM Data Challenge (since 2009)
- 类型:集合
- 访问:需登录
- Kaggle Competition Data
- 类型:集合
- 访问:需登录
- KDD Cup by Tencent 2012
- 类型:集合
- 访问:需登录
- Localytics Data Visualization Challenge
- 类型:集合
- 访问:付费
- Netflix Prize
- 类型:单个数据集
- 访问:免费
- Space Apps Challenge
- 类型:单个数据集
- 访问:免费
- Telecom Italia Big Data Challenge
- 类型:集合
- 访问:需登录
- TravisTorrent Dataset - MSR2017 Mining Challenge
- 类型:集合
- 访问:免费
- Yelp Dataset Challenge
- 类型:单个数据集
- 访问:需登录
地球科学数据集
- AQUASTAT - Global water resources and uses
- 类型:集合
- 访问:免费
- BODC - marine data of ~22K vars
- 类型:集合
- 访问:需登录
- Earth Models
- 类型:集合
- 访问:需登录
- EOSDIS - NASAs earth observing system data
- 类型:集合
- 访问:需登录
- Integrated Marine Observing System (IMOS) - roughly 30TB of ocean measurements
- 类型:集合
- 访问:免费
- Marinexplore - Open Oceanographic Data
- 类型:集合
- 访问:需登录
- Smithsonian Institution Global Volcano and Eruption Database
- 类型:集合
- 访问:免费
- USGS Earthquake Archives
- 类型:集合
- 访问:免费
经济学数据集
- American Economic Association (AEA)
- 类型:集合
- 访问:需登录
- EconData from UMD
- 类型:集合
- 访问:需登录
- Economic Freedom of the World Data
- 类型:集合
- 访问:付费
- Historical MacroEconomic Statistics
- 类型:集合
- 访问:免费
- International Economics Database
- 类型:集合
- 访问:免费
- International Trade Statistics
- 类型:集合
- 访问:免费
- Internet Product Code Database
- 类型:集合
- 访问:需登录
- Joint External Debt Data Hub
- 类型:集合
- 访问:免费
- Jon Haveman International Trade Data Links
- 类型:集合
- 访问:免费
- OpenCorporates Database of Companies in the World
- 类型:集合
- 访问:需登录
- Our World in Data
- 类型:集合
- 访问:免费
- SciencesPo World Trade Gravity Datasets
- 类型:集合
- 访问:免费
- The Atlas of Economic Complexity
- 类型:集合
- 访问:免费
- The Center for International Data
- 类型:集合
- 访问:免费
- The Observatory of Economic Complexity
- 类型:集合
- 访问:免费
- UN Commodity Trade Statistics
- 类型:集合
- 访问:需登录
- UN Human Development Reports
- 类型:集合
- 访问:免费
教育数据集
- College Scorecard Data
- 类型:单个数据集
- 访问:免费
- Student Data from Free Code Camp
- 类型:单个数据集
- 访问:需登录
能源数据集
- AMPds
- 类型:单个数据集
- 访问:免费
- COMBED
- 类型:单个数据集
- 访问:免费
- DRED
- 类型:集合
- 访问:需登录
- ECO
- 类型:单个数据集
- 访问:免费
- EIA
- 类型:集合
- 访问:免费
- HES
- 类型:单个数据集
- 访问:免费
- HFED
- 类型:集合
- 访问:免费
- iAWE
- 类型:单个数据集
- 访问:免费
- PLAID
- 类型:单个数据集
- 访问:免费
- REDD
- 类型:集合
- 访问:免费
- Tracebase
- 类型:集合
- 访问:免费
- UK-DALE
- 类型:单个数据集
- 访问:免费
- WHITED
- 类型:单个数据集
- 访问:免费
金融数据集
- CBOE Futures Exchange
- 类型:集合
- 访问:需登录
- Google Finance
- 类型:集合
- 访问:需登录
- Google Trends
- 类型:集合
- 访问:
搜集汇总
数据集介绍

构建方式
该数据集通过从博客、回答和用户响应中收集和整理公共数据源而构建,将每个数据集指定为“单一”或“集合”,并根据访问权限将其分为“免费”、“付费”或“需要凭证”(即需要登录才能访问数据但仍然免费)。
特点
数据集特点包括来源多样性,涵盖多个领域,如自然语言处理、生物信息学、气候学、复杂网络、计算机科学、数据挑战、地球科学、经济学、教育、能源、金融、地理信息系统等。此外,数据集提供了详细的分类和访问权限信息,便于用户根据需求选择合适的数据集。
使用方法
用户可以根据数据集提供的分类和访问权限信息,通过链接访问相应的数据集。对于免费数据集,用户可以直接下载或浏览;对于需要凭证的数据集,用户可能需要注册或登录才能访问;对于付费数据集,用户需要支付相应费用后才能获得数据。
背景与挑战
背景概述
open-datasets数据集是一组由acusense团队从博客、回答和用户响应中收集和整理的公开数据源列表。该数据集旨在为研究者提供方便的数据访问,其中包括单数据集和集合数据集,并根据访问权限将其分为免费、付费和需要凭据才能访问的类别。open-datasets的创建,体现了数据共享与开放访问的精神,对促进学术研究和数据科学的发展具有重要意义。
当前挑战
open-datasets在构建过程中所遇到的挑战主要包括数据的收集、整理和分类。首先,从众多来源收集数据需要耗费大量时间和精力,并确保数据的准确性和可靠性。其次,对数据集进行适当的分类,以便用户能够快速找到所需的数据集,也是一项挑战。此外,数据集的维护和更新也需要持续的投入和关注,以保证数据集的时效性和相关性。
常用场景
经典使用场景
open-datasets数据集涵盖了多个领域,其经典使用场景主要在于为研究人员提供丰富多样的数据资源。例如,在自然语言处理领域,Cornell Natural Language Visual Reasoning Dataset可用于研究视觉推理任务;在生物信息学领域,1000 Genomes数据集可用于基因组学研究。这些数据集使得研究人员能够便捷地获取并利用这些数据进行各种学术研究和应用开发。
解决学术问题
open-datasets解决了数据获取的难题,为学术研究提供了丰富的数据基础。例如,对于需要大量文本数据来进行自然语言处理的研究人员, Structured Wikipedia Data和Cornell Natural Language Visual Reasoning Dataset等数据集提供了丰富的文本和视觉数据。此外,生物信息学领域的研究人员可以利用1000 Genomes等基因组数据集来解决遗传变异分析的问题。
衍生相关工作
open-datasets衍生出了许多相关的经典工作。例如,基于Cornell Natural Language Visual Reasoning Dataset的研究工作推动了视觉推理领域的发展;基于1000 Genomes的数据集,研究人员发表了大量关于基因组学和遗传学的学术论文。这些衍生工作进一步推动了相关领域的研究进展。
以上内容由遇见数据集搜集并总结生成



