多个数据集
收藏github2020-04-25 更新2024-05-31 收录
下载链接:
https://github.com/nelsonroque/datasets
下载链接
链接失效反馈官方服务:
资源简介:
包含多个不同领域的数据集,供数据科学家使用。
This dataset encompasses a variety of data from multiple domains, designed for use by data scientists.
创建时间:
2018-09-25
原始信息汇总
数据集概述
1. Library of Congress
- 发布日期:04/24/20
- 链接:https://labs.loc.gov/lc-for-robots/
2. Crowd Data
- 发布日期:12/17/18
- 链接:https://graphics.cs.ucy.ac.cy/research/downloads/crowd-data
3. 50 Machine-Learning Friendly Datasets
- 发布日期:10/29/18
- 链接:https://medium.com/datadriveninvestor/the-50-best-public-datasets-for-machine-learning-d80e9f030279
4. TidyTuesday Datasets
- 发布日期:10/17/18
- 链接:https://github.com/rfordatascience/tidytuesday/blob/master/README.md
5. Medium Stories + Claps
- 发布日期:11/1/18
- 链接:https://www.kaggle.com/harrisonjansma/medium-stories
6. Government Data
- 发布日期:10/11/18
- 链接:https://www.data.gov/
7. Google Dataset Search
- 发布日期:10/11/18
- 链接:https://toolbox.google.com/datasetsearch
8. Voting & voter registration data
- 发布日期:10/4/18
- 链接:https://thedataweb.rm.census.gov/ftp/cps_ftp.html#cpssupps
- 链接:https://dataferrett.census.gov/
9. Various saliency benchmarking datasets
- 发布日期:10/3/18
- 链接:http://saliency.mit.edu/datasets.html
10. Excellent, Dynamic Source of New Content
- 发布日期:09/24/18
- 链接:https://www.kaggle.com/datasets
11. from Forbes Article
- 发布日期:09/24/18
- 链接:https://www.forbes.com/sites/bernardmarr/2018/02/26/big-data-and-ai-30-amazing-and-free-public-data-sources-for-2018/#673bf5905f8a
- 链接:https://data.worldbank.org/
- 链接:https://www.imf.org/en/Data
- 链接:https://nces.ed.gov/
- 链接:https://www.ukdataservice.ac.uk/
- 链接:http://fivethirtyeight.com/
- 链接:https://ucr.fbi.gov/
- 链接:https://www.bjs.gov/index.cfm?ty=dca
- 链接:https://www.qlik.com/us/products/qlik-data-market
- 链接:https://exoplanetarchive.ipac.caltech.edu/
- 链接:https://comtrade.un.org/
- 链接:https://markets.ft.com/data/
- 链接:https://trends.google.com/trends/
- 链接:https://opencorporates.com/
- 链接:https://go.developer.ebay.com/ebay-marketplace-insights
- 链接:http://data.nhm.ac.uk/
- 链接:http://opendata.cern.ch/
- 链接:https://archive.org/details/audio-covers
- 链接:http://datamarket.azure.com/browse/data?price=free
- 链接:https://archive.org/details/2015_reddit_comments_corpus
- 链接:http://www.londonair.org.uk/london/asp/datadownload.asp
搜集汇总
数据集介绍

构建方式
该数据集名为多个数据集,其构建方式并非单一渠道收集,而是汇总了不同来源、不同领域的众多数据集。它涉及图书馆、网络群体、机器学习、政府公开数据等多个领域,通过整合各领域高质量的数据资源,为数据科学家提供了丰富的数据支持。
特点
该数据集的特点在于其多样性与全面性。不仅包含了图书、文章、故事等文本数据,还包含了机器学习所需的数值数据、政府统计数据、空气质量数据等多种类型。此外,数据集不断更新,确保了时效性与准确性,满足了不同研究需求。
使用方法
使用该数据集,用户首先需要根据研究需求选择合适的数据集。可通过访问提供的链接,下载相应的数据文件。部分数据集可能需要特定的软件或编程语言来处理,例如使用Python、R等语言进行数据分析。用户还需遵循各数据集的使用条款,确保合法合规使用数据。
背景与挑战
背景概述
该数据集集合并非单一数据集,而是一个汇总了多个数据集的资源库,旨在服务于对数据有迫切需求的数据科学家。这些数据集涵盖了广泛的主题和来源,从政府数据、科学研究中提取的数据到社交媒体和新闻网站的内容,不一而足。其创建时间不等,最早可追溯至2018年4月24日,由不同机构和个人贡献,其中包括了国会图书馆实验室、塞浦路斯大学计算机科学系等知名机构,其影响力在于为研究人员和开发者提供了丰富的数据资源,以支撑机器学习、数据分析和人工智能等领域的研究。
当前挑战
面对如此庞大的数据集集合,研究人员和开发者所面临的挑战主要包括数据的多样性带来的整合和标准化问题,以及数据质量和可用性的验证。具体而言,各个数据集在收集和构建过程中遇到的不同挑战,如数据收集的偏差、隐私保护、实时更新与维护等,都为使用这些数据集带来了额外的复杂性。此外,所解决领域问题的挑战,如投票与选民注册数据的分析,需要克服数据稀疏性、不平衡性和隐私敏感性等问题。
常用场景
经典使用场景
在数据科学领域,多个数据集的集成使用为研究人员提供了丰富的资源,以便于开展综合性的分析和挖掘工作。该集成数据集的经典使用场景在于对多样本数据进行多维度的特征提取和模式识别,从而实现数据的深度挖掘与知识发现。
实际应用
在实际应用中,此类集成数据集被广泛运用于市场分析、公共管理、城市规划等多个领域,其提供的丰富数据资源助力于决策的科学化和精准化,对提升社会运行效率具有重要意义。
衍生相关工作
基于这些集成数据集,学术界和产业界衍生出众多经典工作,包括数据挖掘算法的创新、大数据分析模型的构建以及人工智能技术的应用研究,推动了数据科学领域的持续发展。
以上内容由遇见数据集搜集并总结生成



