多个数据集

github2022-06-30 更新2024-05-31 收录

下载链接：

https://github.com/jinfagang/datasets

下载链接

链接失效反馈

官方服务：

资源简介：

该仓库收集了包括图像、语音、金融、交通、商业等多个领域的数据集，涵盖了近300种各类数据集，用于支持人工智能和深度学习研究。

This repository aggregates datasets spanning multiple domains, including images, audio, finance, transportation, and commerce, encompassing nearly 300 diverse datasets to support research in artificial intelligence and deep learning.

创建时间：

2018-09-14

原始信息汇总

数据集概述

图像数据集

综合图像

Visual Genome: 链接
Visual7w: 链接
COCO: 链接
SUFR: 链接
ILSVRC 2014: 链接
PASCAL Visual Object Classes 2012: 链接
PASCAL Visual Object Classes 2011: 链接
PASCAL Visual Object Classes 2010: 链接

场景图像

Street Scences: 链接
Places2: 链接
UCF Google Street View: 链接
SUN: 链接
The Celebrity in Places: 链接

WEB图像标签

HARRISON: 链接
NUS-WIDE: 链接
Visual Synset: 链接
Animals With Attributes: 链接

人形轮廓图象

MPII Human Shape: 链接
Biwi Kinect Head Pose: 链接
上半身人像数据: 链接
INRIA Person: 链接

视觉文字识别图像

Street View House Number: 链接
MNIST: 链接
3D MNIST: 链接
MediaTeam Document: 链接
Text Recognition: 链接
NIST Handprinted Forms and Characters: 链接
NIST Structured Forms Reference Set of Binary Images (SFRS): 链接
NIST Structured Forms Reference Set of Binary Images (SFRS) II: 链接

特定一类事物图像

著名的猫图像标注数据: 链接
Caltech-UCSD Birds200: 链接
Stanford Car: 链接
MIT Cars: 链接
Stanford Cars: 链接
Food-101: 链接
17_Category_Flower: 链接
102_Category_Flower: 链接
UCI Folio Leaf: 链接
Labeled Fishes in the Wild: 链接
美国 Yelp 点评网站酒店照片: 链接
CMU-Oxford Sculpture: 链接
Oxford-IIIT Pet: 链接
Nature Conservancy Fisheries Monitoring: 链接

材质纹理图像

CURET: 链接
ETHZ Synthesizability: 链接
KTH-TIPS: 链接
Describable Textures: 链接

物体分类图像

COIL-20: 链接
COIL-100: 链接
Caltech-101: 链接
Caltech-256: 链接
CIFAR-10: 链接
CIFAR-100: 链接
STL-10: 链接
LabelMe_12_50k: 链接
NORB v1.0: 链接
NEC Toy Animal: 链接
iCubWorld: 链接
Multi-class: 链接
GRAZ: 链接

人脸图像

IMDB-WIKI 500k+: 链接
Labeled Faces in the Wild: 链接
Extended Yale Face Database B: 链接
Bao Face: 链接
DC-IGN 论文人脸数据: 链接
300 Face in Wild: 链接
BioID Face: 链接
CMU Frontal Face Images: 链接
FDDB_Face Detection Data Set and Benchmark: 链接
NIST Mugshot Identification Database: 链接
Faces in the Wild: 链接
CelebA: 链接
VGG Face: 链接
Caltech 10k Web Faces: 链接

姿势动作图像

HMDB_a large human motion database: 链接
Human Actions and Scenes Dataset: 链接
Buffy Stickmen V3: 链接
Human Pose Evaluator: 链接
Buffy pose: 链接
VGG Human Pose Estimation: 链接

指纹识别图像

NIST FIGS: 链接
NIST Supplemental Fingerprint Card Data (SFCD): 链接
NIST Plain and Rolled Images from Paired Fingerprint Cards in 500 pixels per inch: 链接
NIST Plain and Rolled Images from Paired Fingerprint Cards 1000 pixels per inch: 链接

其他图像数据

Visual Question Answering V1.0: 链接
Visual Question Answering V2.0: 链接

视频数据集

综合视频

DAVIS_Densely Annotated Video Segmentation: 链接
YouTube-8M: 链接
YouTube 网站视频备份: 链接

人类动作视频

Microsoft Research Action: 链接
UCF50 Action Recognition: 链接
UCF101 Action Recognition: 链接
UT-Interaction: 链接
UCF iPhone: 链接
UCF YouTube: 链接
UCF Sport: 链接
UCF-ARG: 链接
HMDB: 链接
HOLLYWOOD2: 链接
Recognition of human actions: 链接
Motion Capture: 链接
SBU Kinect Interaction: 链接

目标检测视频

UCSD Pedestrian: 链接
Caltech Pedestrian: 链接
ETH: 链接
INRIA: 链接
TudBrussels: 链接
Daimler: 链接
ALOV++: 链接

密集人群视频

Crowd Counting: 链接
Crowd Segmentation: 链接
Tracking in High Density Crowds: 链接

其他视频

Fire Detection: 链接

音频数据集

综合音频

Google Audioset: 链接

语音识别

Sinhala TTS: 链接
TIMIT: 链接
LibriSpeech ASR corpus: 链接
Room Impulse Response and Noise: 链接
ALFFA: 链接
THUYG-20: 链接
AMI Corpus: 链接

自然语言处理数据集

RCV1英语新闻数据: 链接
20news 英语新闻数据: 链接
First Quora Release Question Pairs: 链接
JRC Names各国语言专有实体名称: 链接
Multi-Domain Sentiment V2.0: 链接
LETOR 信息检索

搜集汇总

数据集介绍

构建方式

该数据集通过整合多个领域的数据源构建而成，涵盖了金融、交通、商业、医疗健康、图像、视频、音频、自然语言处理和社会数据等18大领域。数据来源包括官方发布的数据、Kaggle竞赛数据、学术研究数据以及公开的行业数据。数据集的构建过程中，采用了自动化爬取和人工筛选相结合的方式，确保数据的多样性和可靠性。

使用方法

该数据集的使用方法灵活多样，用户可以根据具体的研究需求选择相应的子数据集。对于图像和视频数据，用户可以利用深度学习框架（如TensorFlow、PyTorch）进行模型训练和测试。对于金融和商业数据，用户可以使用统计分析和机器学习算法进行预测和分类。数据集还提供了详细的元数据信息，帮助用户快速理解数据结构和内容，从而高效地进行数据预处理和特征工程。

背景与挑战

背景概述

在人工智能的快速发展中，数据集作为算法训练和模型验证的基础，扮演着至关重要的角色。奇异AI的工作者们致力于收集和整理来自18大领域的近300种数据集，涵盖了从图像、语音到金融、交通等多个方面。这些数据集不仅为深度学习的研究提供了丰富的资源，也推动了相关领域的技术进步和应用创新。通过GitHub等平台的开放共享，这些数据集得以广泛传播，促进了全球研究者的合作与交流。

当前挑战

尽管数据集的数量和种类日益丰富，但在实际应用中仍面临诸多挑战。首先，数据质量参差不齐，部分数据集存在标注不准确或数据缺失的问题，这直接影响了模型的训练效果和泛化能力。其次，数据集的规模和复杂性不断增加，如何高效地存储、处理和分析大规模数据成为技术上的难题。此外，数据隐私和安全问题也不容忽视，特别是在涉及个人敏感信息的领域，如何在保护隐私的同时充分利用数据价值，是当前研究的热点和难点。

常用场景

经典使用场景

在人工智能领域，数据集是推动技术进步的核心资源。多个数据集涵盖了图像、语音、金融、交通、商业、医疗健康等多个领域，广泛应用于深度学习模型的训练与验证。例如，COCO数据集常用于图像分类与分割任务，LJ Speech数据集则用于语音识别与合成研究。这些数据集为学术界和工业界提供了丰富的数据支持，推动了计算机视觉、自然语言处理等领域的快速发展。

解决学术问题

多个数据集解决了人工智能研究中的多个关键问题。例如，COCO数据集通过提供大量标注图像，解决了图像分割和目标检测中的标注数据不足问题；LJ Speech数据集则为语音合成研究提供了高质量的语音数据，推动了语音识别技术的进步。此外，金融数据集如美国劳工部统计局数据，为金融市场的预测与分析提供了可靠的数据基础，解决了金融领域数据稀缺的问题。

实际应用

多个数据集在实际应用中发挥了重要作用。例如，COCO数据集被广泛应用于自动驾驶、智能监控等领域，帮助系统识别和理解复杂场景中的物体。LJ Speech数据集则被用于智能语音助手和语音合成系统中，提升了语音交互的自然度和准确性。金融数据集如沪深股票数据，被用于股票市场分析和投资策略优化，帮助投资者做出更明智的决策。

数据集最近研究