各种数据集

github2024-04-16 更新2024-05-31 收录

下载链接：

https://github.com/LypJm/dataset

下载链接

链接失效反馈

官方服务：

资源简介：

包含多种类型的数据集，如自然场景数据集、自然图像数据集、地理空间数据、人工数据集和面部数据集等，用于不同的研究和应用领域。

This dataset encompasses a variety of data types, including natural scene datasets, natural image datasets, geospatial data, synthetic datasets, and facial datasets, among others, designed for diverse research and application domains.

创建时间：

2019-09-21

原始信息汇总

数据集概述

自然场景数据集

文本定位，文本识别，人脸，人手，姿态识别等：来自www.robots.ox.ac.uk

自然图像数据集

MNIST：手写数字图集，数据格式为25x25，居中，B＆W手写数字。
CIFAR10 / CIFAR100：由10个类的60000个32x32彩色图像组成。
Caltech 101：加利福尼亚理工学院101类图像数据库。
Caltech 256：加利福尼亚理工学院256类图像数据库。
STL-10 dataset：用于开发无监督特征学习，深度学习，自学习学习算法的图像识别数据集。
The Street View House Numbers (SVHN)：Google街景的门牌号码。
NORB：此数据库用于从形状进行3D对象重新定位的实验。
Pascal VOC：为图像识别和分类提供了一整套标准化的优秀的数据集。
Labelme：带注释图像的大型数据集。
ImageNet：新算法的客观图像数据集。
LSUN：具有很多辅助任务的场景理解。
MS COCO：通用图像理解/说明，以及相关的竞赛。
COIL 20：不同的物体在360度旋转的每个角度成像。
COIL100：在360度旋转中以各个角度成像的不同对象。
Google’s Open Images：Google公司开放的大型图像标注数据集，包含 900万张图像中 7800种类别内容的标注。

地理空间数据

OpenStreetMap：一个世界地图，可依据开放许可协议自由使用。
Landsat8：整个地球表面的卫星镜头，每隔几周更新一次。
NEXRAD：美国大气层的多普勒雷达扫描图，能提供反射率和径向速度数据。

人工数据集

Arcade Universe：一个人工数据集生成器，图像包含街机游戏sprite。
BabyAISchool：受BabyAISchool创意启发的数据集集合。
BabyAIShapesDatasets：区分 3 种简单形状。
BabyAIImageAndQuestionDatasets：一个问题图像答案数据集。
DeepVsShallowComparisonICML2007：为深层体系结构的经验评估而生成的数据集。
MnistVariations：引入MNIST的受控变化。
RectanglesData：区分宽矩形和高矩形。
ConvexNonConvex：区分凸图像和非凸图像。
BackgroundCorrelation：嘈杂 MNIST 背景下相关度的控制。

面部数据集

Labelled Faces in the Wild：这是一个面部照片数据库，该数据集包含从网络收集的13,000多张面部图像。
UMD Faces：UMDFaces是一个面部数据集，分为两部分：有 8501 个主题的 367，920 个面孔的带注释图像数据集和3100个主题视频的370多万个带注释的视频帧。
CASIA WebFace：超过 10，575 个人经面部检测的 453，453 张图像的面部数据集。
MS-Celeb-1M：100万来自世界各地的名人形象。
Olivetti：MATLAB格式的一些数据集，包含一些人类的不同图像。
Multi-Pie：CMU Multi-PIE Face数据库。
Face-in-Action：该数据库包含来自180名参与者的面部数据的20秒视频，具有成像变化（例如姿势，光照，表情，老化等）的CMU FIA数据。
JACFEE：本和白种人面部情绪表达的图像。
FERET：面部识别技术数据库。
mmifacedb：MMI面部表情数据库。
耶鲁人脸数据库：
耶鲁人脸数据库 B：

视频数据集

Youtube-8M：用于视频理解研究的大型多样化标记视频数据集。

文本数据集

20 newsgroups：大约20,000个新闻组文档的集合，每个新闻组对应于不同的主题。
Reuters News dataset：路透社于1987年发布新闻专线，比较旧，常把它用于教程。
Penn Treebank：用于预测下一个单词或下一个字符。
UCI’s Spambase：这是一个年代较久远的、经典的垃圾电子邮件数据集,来源是著名的 UCI机器学习库。
Broadcast News：大型文本数据集，通常用于预测下一个单词。
Text Classification Datasets：大型文本数据集，通常用于下一个单词预测。
WikiText： Salesforce MetaMind 发起的维基百科高质量文章的大型语言建模语料库。
SQuAD：斯坦福问题回答数据集 - 广泛有用的问题回答和阅读理解数据集，其中每个问题的答案都作为一段文本提出。
Billion Words dataset：一种大型通用语言建模数据集。通常用于训练分布式单词表示，如word2vec。
Common Crawl：网络的PB级抓取 - 最常用于学习单词嵌入。Amazon S3免费提供。也可以用作网络数据集，因为它是从万维网上爬取。
Google Books Ngrams：来自Google图书的连续字符。旨在探索一种简化单词首次被广泛使用的方法。
Yelp Open Dataset：Yelp 数据集是用于 NLP 的 Yelp 业务、评论和用户数据的子集。

问题问答数据

Maluuba News QA Dataset：CNN 新闻文章中的 12 万个问答数据。
Quora Question Pairs：来自Quora发布的第一个数据集，包含重复/语义相似性标签。
CMU Q/A Dataset：手动生成的仿真问答，维基百科对其的难度评分很高。
Maluuba goal-oriented dialogue：程序性对话数据集，其中对话旨在完成任务或做出决定。经常用于聊天机器人。
bAbi：来自Facebook AI Research（FAIR）的综合阅读理解和问答数据集。
The Children’s Book Test：通过Project Gutenberg提供的儿童图书中提取的（问题+背景，答案）。用于问答（阅读理解）和仿真查找。

情绪数据集

Multidomain sentiment analysis dataset：较旧的多领域情绪分析数据集。
IMDB：用于二元情感分类的较旧的，较小的数据集。对文献中的基准测试不再支持更大的数据集。
Stanford Sentiment Treebank：准情绪数据集，在每个句子的解析树的每个节点上都有细粒度的情感注释。

网络和图形

Amazon Co-Purchasing：亚马逊评论从亚马逊的“购买此产品的用户还购买了......”部分抓取数据，以及亚马逊相关产品的评论数据。适合在网络中尝试推荐系统。
Friendster Social Network Dataset：在变成游戏网站之前，Friendster 以103,750,348 名用户的朋友列表形式发布了匿名数据。

语音数据集

2000 HUB5 English：最近在百度的Deep Speech论文中使用的英语语音数据。
LibriSpeech：包含文本和语音的有声读物数据集。由多个朗读者阅读的近 500 小时的各种有声读物演讲内容组成，包含带有文本和语音的章节。
VoxForge：带口音的清晰英语语音数据集。适用于希望对不同口音或语调进行提升的人。
TIMIT：仅限英语的语音识别数据集。
CHIME：嘈杂的语音识别挑战数据集。数据集包含真实、仿真和干净的录音。真实录音由 4 个扬声器在 4 个嘈杂位置的近 9000 个录音构成，仿真录音由多个语音环境和清晰的无噪声录音结合而成。
TED-LIUM：TED演讲的音频转录。1495个 TED讲述录音以及这些录音的全文转录。

音符数据集

Piano-midi.de：古典钢琴曲。
Nottingham：超过1000首民歌。
MuseData：古典音乐评分的电子图书馆。
JSB Chorales：四部协奏曲。

数据集

CMU动作捕捉数据库：
Brodatz dataset：纹理建模数据库。
来自欧洲核子研究中心的大型强子对撞机(LHC)的 300TB 高质量据。
NYC Taxi dataset：由于FOIA请求而获得的纽约出租车数据导致了隐私问题。
Uber FOIL dataset：来自Uber FOIL请求的纽约市4.5M拾取数据。
Criteo click stream dataset：来自欧盟重新定位的大型互联网广告数据集。

健康与生物学数据

欧盟传染病监测地图集：
默克分子活动挑战：
Musk dataset：该数据集描述了以不同构造出现的分子。每个分子都是 musk 或 non-musk，且其中一个构造决定了这一特性。

政府&统计数据

Data USA：最全面的美国可视化公共数据。
欧盟性别统计数据库：
荷兰国家地质研究数据：
联合国开发计划署项目：

最近的补充

开源生物识别数据：
Google Audioset：扩展了632个音频事件类的本体，以及从YouTube视频中提取的2,084,320个人类标记的10秒声音片段。
Uber 2B trip data：Uber首次展示 2 百万公里的出行数据。
Yelp Open Dataset：Yelp 数据集是用于 NLP 的 Yelp 业务、评论和用户数据的子集。
Core50：用于连续对象识别的新数据集和基准。
Kaggle数据集页面：
Data Portals：
Open Data Monitor：欧洲开放数据集。
Quandl Data Portal：Quandl是一个数据平台，金融，经济和替代数据集的主要来源，为投资专业人士提供服务。
Github 上的公共数据集：
头部CT扫描数据集：491次扫描的CQ500数据集。

搜集汇总

数据集介绍

构建方式

该数据集的构建方式涵盖了多种自然场景和人工生成的图像、文本、视频、语音等多模态数据。自然图像数据集如MNIST、CIFAR10/CIFAR100等，通过采集和标注手写数字、彩色图像等，形成了经典的图像分类基准。文本数据集如20 newsgroups、Reuters News dataset等，通过收集和整理新闻组文档、新闻专线等，提供了丰富的文本分类和情感分析资源。视频数据集如Youtube-8M，通过大规模标注视频内容，支持视频理解研究。语音数据集如LibriSpeech、TIMIT等，通过录制和转录有声读物、清晰英语语音等，为语音识别提供了高质量的训练数据。

特点

该数据集的特点在于其多样性和广泛性，涵盖了从简单的手写数字识别到复杂的视频理解、语音识别等多个领域。数据集的规模从小型的MNIST到大规模的Youtube-8M，满足了不同研究需求。此外，数据集的标注质量高，许多数据集如ImageNet、MS COCO等，提供了详细的图像标注和语义信息，支持深度学习模型的训练和评估。人工生成的数据集如Arcade Universe、BabyAISchool等，为特定任务提供了受控的实验环境，便于算法验证和比较。

使用方法

该数据集的使用方法多样，适用于图像分类、文本分析、视频理解、语音识别等多个领域。对于图像数据集，用户可以通过下载数据集文件，使用深度学习框架如TensorFlow、PyTorch等进行模型训练和评估。文本数据集可以通过自然语言处理工具包如NLTK、SpaCy等进行文本预处理和模型训练。视频数据集和语音数据集则可以通过相应的多媒体处理工具进行数据加载和模型训练。此外，许多数据集提供了详细的文档和示例代码，帮助用户快速上手和应用。

背景与挑战

背景概述

各种数据集是一个汇集了多种自然场景和人工数据集的资源库，涵盖了从图像识别到文本分类、语音识别等多个领域的数据集。这些数据集由全球多个知名研究机构和大学创建，如加州理工学院、斯坦福大学、牛津大学等。数据集的创建时间跨度较大，最早的如MNIST手写数字数据集，已有数十年的历史，而最新的如Google的Open Images数据集，则是在2016年发布。这些数据集的核心研究问题包括图像分类、文本定位、情感分析、推荐系统等，对推动机器学习和人工智能领域的发展起到了至关重要的作用。

当前挑战

这些数据集在解决领域问题时面临诸多挑战。首先，图像分类数据集如CIFAR10和ImageNet，尽管提供了丰富的图像样本，但在处理复杂背景、光照变化和多类别分类时仍存在困难。其次，构建过程中，数据集的标注质量和一致性是一个重要挑战，尤其是在大规模数据集如Yelp Open Dataset中，标注错误和噪声数据可能影响模型的训练效果。此外，随着数据集规模的扩大，如何高效存储、处理和分析这些数据也成为了一个技术难题。最后，隐私和伦理问题，如NYC Taxi dataset和Uber FOIL dataset，在数据收集和使用过程中引发了广泛的社会关注。

常用场景

经典使用场景

该数据集涵盖了多种自然场景和人工生成的图像数据集，广泛应用于计算机视觉领域。例如，MNIST手写数字数据集常用于图像分类和识别任务的基准测试，而CIFAR10和CIFAR100则用于更复杂的图像分类任务。此外，SVHN数据集用于门牌号码识别，Pascal VOC和ImageNet则广泛用于图像分割和分类任务。这些数据集为研究人员提供了丰富的资源，用于开发和验证各种图像处理算法。

衍生相关工作

基于这些数据集，许多经典的研究工作得以展开。例如，ImageNet数据集催生了AlexNet等深度学习模型，极大地推动了图像识别技术的发展。Pascal VOC数据集则促进了目标检测和图像分割技术的进步。此外，MNIST数据集的变体被用于研究不同条件下的图像识别性能，如噪声背景下的识别能力等。

数据集最近研究