公共数据集

github2020-02-09 更新2024-05-31 收录

下载链接：

https://github.com/vipbaodao/Open-Datasets

下载链接

链接失效反馈

官方服务：

资源简介：

该仓库收集了多种类型的公共数据集，包括图像处理、机器学习和自然语言处理等领域，每个数据集都提供了链接和简要描述，方便用户访问和使用。

This repository aggregates a variety of public datasets spanning fields such as image processing, machine learning, and natural language processing. Each dataset is accompanied by a link and a brief description to facilitate user access and utilization.

创建时间：

2018-10-11

原始信息汇总

图像处理数据集

10k 美国人脸数据库
2GB 猫的图片
为性别和年龄分类任务而建的未经滤波处理的人脸数据集
情感分类图像数据集
具备属性标记的50种动物图像
加州理工行人检测数据集
自然图像中的字符识别数据集
人脸检测数据库
采集自Flickr的数十种商标图像
GDXray 近2w幅X光透视影像
斯坦福 ImageNet 数据库
室内场景识别图像
弗罗里达大学提供经规范评分标记的用于情感刺激和心理认知研究的图像
近百万样本的 MNIST 手写数字数据库
MIT提供室内室外各种场景下的环境光照变化图像
斯坦福提供的120个品种超过2w样本犬类图像
用于动作检测和行为识别的视频图像库
牛津大学37类宠物图像
人群中异常行为检测视频数据集
Visual genome 由斯坦福大学人工智能实验室李飞飞教授等建立的结构化描述图像数据库
YouTube 视频人脸数据集

机器学习数据集

多种类型的分类和回归数据集
Discogs每月更新的音乐作品信息数据
免费的音乐信息数据库
每日更新的IMDb数据库
分类、回归、时间序列等机器学习任务测试基准数据库
LFW野外标注人脸数据库
分年度真实贷款申请和被拒数据
哥伦比亚大学提供百万级歌曲数据
电影评分和推荐数据
对《纽约客》杂志标题的评分数据
旧金山地区餐厅卫生评分数据
加州大学尔湾分校提供用于机器学习任务的多种类别数据集
来自Yahoo! 的多种分类和评分数据
高质量的YouTube视频目标边界标注数据
Youtube 8m：高质量机器标注Youtube视频数据
2012年度eBay在线拍卖数据

自然语言处理数据集

自动关键词提取数据
2004年英文博客语料库
Google抓取的英文网页语料库
Flickr个人分类数据
多语种Google Books Ngrams数据集
Google MC-AFP - 机器理解数据集
Gutenberg项目提供的电子书
第36届加拿大议会的会议记录
微软机器理解数据库
欧洲语言间机器翻译用平行语料库
多领域公众情绪数据集
开源多语种Wordnet
英文垃圾短信数据集
Stanford问答数据集
2005~2011英语新闻语料库
多语种新闻语料库
维基百科语料数据
维基百科链接数据
WordNet大规模英文语义数据库
玻森中文语料数据

大气环境数据集

美国和加拿大部分地区气候数据
澳大利亚每日天气数据
美国国家海洋和大气管理局航空气象中心
加拿大政府气象中心数据
每月更新的全球温度数据
欧洲及地中海沿岸地区极端天气状况数据
自1929年开始遍布全球的超9000个气象站记录的全球气候数据
美国国家航空航天局多种类全球数据可视化浏览服务
美国国家海洋和大气管理局白令海洋生态和气候数据
美国国家海洋和大气管理局多种类型大气和天气数据
美国国家海洋和大气管理局 SURFRAD 气象雷达数据
世界银行公开气候变化数据
英国东安格利亚大学提供的多种气候数据
分地区全球天气历史数据
用于生态学模型和地理信息系统的全球气候数据

国内政府公开数据

国家数据
北京市政务数据资源网
上海市政府数据服务网
浙江政务服务网
武汉市政府公开数据服务网

专利数据

中国专利数据
欧洲专利局数据服务

搜集汇总

数据集介绍

构建方式

本数据集的构建采取了人工筛选与网络爬虫技术相结合的方式，以确保数据的多样性和准确性。手工验证的资源包括各类图像处理、机器学习、自然语言处理以及大气环境等领域的公共数据集，覆盖了从人脸识别到气候数据等多个维度，构建过程注重数据的真实性和代表性。

特点

该数据集的特点在于其内容的丰富性和领域的广泛性。不仅包含了图像处理、机器学习、自然语言处理等热门领域的数据集，还涵盖了大气环境、国内政府公开数据以及专利数据等。每一份数据资源都经过严格的筛选和验证，确保了数据集的质量和可靠性。

使用方法

用户可根据自身需求，通过数据集提供的链接直接访问并下载数据。对于部分需要科学上网的数据集，用户需确保网络环境符合要求。使用数据前，建议详细阅读数据集的README文件和相关文档，以了解数据的具体格式和使用条款。

背景与挑战

背景概述

公共数据集，更新于2018年10月11日，是一份涵盖多个领域的数据集清单，其中包括图像处理、机器学习、自然语言处理、大气环境、国内政府公开数据和专利数据等。该数据集的创建旨在为研究人员提供丰富的数据资源，以促进相关领域的研究和应用。其内容经过手工验证，保证了数据的质量和可靠性。该数据集的发布对于推动相关领域的技术发展，如图像识别、机器学习算法优化、自然语言处理技术进步等，具有重要的参考价值。

当前挑战

公共数据集在构建和使用过程中面临的挑战包括：1) 数据集的多样性和质量保证；2) 数据隐私和安全的处理；3) 数据更新和维护的持续性；4) 数据集在不同领域的适用性和准确性。此外，各领域具体数据集还面临各自的挑战，如图像数据集的标注一致性、机器学习数据集的特征工程、自然语言处理数据集的语言多样性处理等。

常用场景

经典使用场景

在图像处理领域，公共数据集为研究者提供了丰富的资源，其中美国人脸数据库、猫的图片、未经滤波处理的人脸数据集等，被广泛用于人脸识别、分类和情感分析等任务。这些数据集不仅包含大量标注数据，而且涵盖了不同的种族、年龄和性别，为算法的训练和评估提供了坚实基础。

解决学术问题

公共数据集解决了学术研究中数据获取的难题，为图像识别、自然语言处理、机器学习等多个领域的研究提供了数据支撑。例如，MNIST手写数字数据库为手写数字识别研究提供了标准测试平台；IMDb数据库和电影评分推荐数据为推荐系统研究提供了丰富的样本。这些数据集的标准化和广泛可用性，促进了学术研究的进展。

衍生相关工作

基于公共数据集，学术界产生了大量经典工作。例如，基于ImageNet数据库的深度学习模型研究，推动了计算机视觉领域的巨大进步；而MNIST数据集则激发了大量关于手写数字识别的新算法和优化技术的研究。此外，自然语言处理领域的多项研究也得益于公共数据集的可用性，如基于维基百科语料数据的语义理解和知识图谱构建工作。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集