多领域数据集集合

github2019-04-20 更新2024-05-31 收录

下载链接：

https://github.com/hufanglei875535215/datasets

下载链接

链接失效反馈

官方服务：

资源简介：

奇异AI的工作者们收集了大量的数据来源，包含18大领域，近300种各类数据集，涉及图像、语音、金融、交通和商业等多个领域。

Researchers at Qiyi AI have collected a vast array of data sources, covering 18 major fields and including nearly 300 diverse datasets that span multiple sectors including images, speech, finance, transportation and commerce.

创建时间：

2019-04-20

原始信息汇总

数据集概述

图像数据集

COCO: 图像分类和分割数据集。

语音数据集

LJ: 语音识别合成数据集，英文，女声，高质量，约2.6G。

金融数据集

美国劳工部统计局官方发布数据
沪深股票除权除息、配股增发全量数据，截止2016.12.31
上证主板日线数据，截止2017.05.05，包含原始价、前复权价、后复权价，1260支股票
深证主板日线数据，截止2017.05.05，包含原始价、前复权价、后复权价，466支股票
深证中小板日线数据，截止2017.05.05，包含原始价、前复权价、后复权价，852支股票
深证创业板日线数据，截止2017.05.05，包含原始价、前复权价、后复权价，636支股票
上证A股日线数据，1999.12.09至2016.06.08，前复权，1095支股票
深证A股日线数据，1999.12.09至2016.06.08，前复权，1766支股票
深证创业板日线数据，1999.12.09至2016.06.08，前复权，510支股票
MT4平台外汇交易历史数据
Forex平台外汇交易历史数据
几组外汇交易逐笔（Ticks）数据
美国股票新闻数据【Kaggle数据】
美国医疗保险市场数据【Kaggle数据】
美国金融客户投诉数据【Kaggle数据】
Lending Club 网贷违约数据【Kaggle数据】
信用卡欺诈数据【Kaggle数据】
美国股票数据XBRL【Kaggle数据】
纽约股票交易所数据【Kaggle数据】
贷款违约预测竞赛数据【Kaggle竞赛】
Zillow 网站房地产价值预测竞赛数据【Kaggle竞赛】
Sberbank 俄罗斯房地产价值预测竞赛数据【Kaggle竞赛】
Homesite 保险定价竞赛数据【Kaggle竞赛】
Winton 股票回报率预测竞赛数据【Kaggle竞赛】

交通数据集

2013年纽约出租车行驶数据
2013年芝加哥出租车行驶数据
Udacity自动驾驶数据
纽约 Uber 接客数据【Kaggle数据】
英国车祸数据（2005-2015）【Kaggle数据】
芝加哥汽车超速数据【Kaggle数据】
KITTI 自动驾驶任务数据【数据太大仅有部分】
Cityscapes 场景标注数据【数据太大仅有部分】
交通信号识别数据
芝加哥Divvy共享自行车骑行数据（2013年至今）
美国查塔努加市共享单车骑行数据
Capital 共享单车骑行数据
Bay Area 共享单车骑行数据
Nice Ride 共享单车骑行数据
花旗银行共享单车骑行数据
运用卫星数据跟踪亚马逊热带雨林中的人类轨迹竞赛【Kaggle竞赛】
纽约出租车管理委员会官方的乘车数据（2009年-2016年）

商业数据集

Airbnb 开放的民宿信息和住客评论数据
Amazon 食品评论数据【Kaggle数据】
Amazon 无锁手机评论数据【Kaggle数据】
美国视频游戏销售和评价数据【Kaggle数据】
Kaggle 各项竞赛情况数据【Kaggle数据】
Bosch 生产流水线降低次品率竞赛数据【Kaggle竞赛】
预测公寓租金竞赛数据
广告点击预测竞赛数据
餐厅营业收入预测建模竞赛
银行产品推荐竞赛数据
网站用户推荐点击预测竞赛数据
在线广告实时竞价数据【Kaggle数据】
购物车商品关联竞赛数据【Kaggle竞赛】
Airbnb 新用户的民宿预定预测竞赛数据【Kaggle竞赛】

医疗健康数据集

人识别物体时大脑核磁共振影像数据
人理解单词时大脑核磁共振影像数据
心脏病心房图像及标注数据
细胞病理识别
FIRE 视网膜眼底病变图像数据
食物营养成分数据【Kaggle数据】
EGG 大脑电波形状数据【Kaggle数据】
某人基因序列数据【Kaggle数据】
癌症CT影像数据【Kaggle数据】
软组织肉瘤C图像数据【Kaggle数据】
美国国家健康服务部-国家癌症研究所发起的癌症数据仓库介绍【仅有介绍】
Data Science Bowl 2017 肺癌识别竞赛数据【数据太大仅有介绍】
TCGA-LUAD 肺癌CT图像数据
RIDER Lung CT 肺癌CT影像
TCGA-COAD癌症CT影像数据
TCIA-TCGA-OV 癌症CT影像数据
TCIA RIDER NEURO 癌症MRI影像数据
QIN Beast 乳腺癌MRI影像数据

图像数据集

综合图像
- Visual Genome 图像数据
- Visual7w 图像数据
- COCO 图像数据
- SUFR 图像数据
- ILSVRC 2014 训练数据（ImageNet的一部分）
- PASCAL Visual Object Classes 2012 图像数据
- PASCAL Visual Object Classes 2011 图像数据
- PASCAL Visual Object Classes 2010 图像数据
- 80 Million Tiny Image 图像数据【数据太大仅有介绍】
- ImageNet【数据太大仅有介绍】
- Google Open Images【数据太大仅有介绍】
场景图像
- Street Scences 图像数据
- Places2 场景图像数据
- UCF Google Street View 图像数据
- SUN 场景图像数据
- The Celebrity in Places 图像数据
WEB图像标签
- HARRISON 社交标签图像
- NUS-WIDE 标签图像
- Visual Synset 标签图像
- Animals With Attributes 标签图像
人形轮廓图像
- MPII Human Shape人体轮廓数据
- Biwi Kinect Head Pose 头部姿势数据
- 上半身人像数据
- INRIA Person 数据集
视觉文字识别图像
- Street View House Number 门牌号图像数据
- MNIST 手写数字识别图像数据
- 3D MNIST 数字识别图像数据【Kaggle数据】
- MediaTeam Document 文档影印和内容数据
- Text Recognition 文字图像数据
- NIST Handprinted Forms and Characters 手写英文字符数据
- NIST Structured Forms Reference Set of Binary Images (SFRS) 图像数据
- NIST Structured Forms Reference Set of Binary Images (SFRS) II 图像数据
特定一类事物图像
- 著名的猫图像标注数据
- Caltech-UCSD Birds200 鸟类图像数据
- Stanford Car 汽车图像数据
- MIT Cars 汽车图像数据
- Stanford Cars 汽车图像数据
- Food-101 美食图像数据
- 17_Category_Flower 图像数据
- 102_Category_Flower 图像数据
- UCI Folio Leaf 图像数据
- Labeled Fishes in the Wild 鱼类图像
- 美国 Yelp 点评网站酒店照片
- CMU-Oxford Sculpture 塑像雕像图像
- Oxford-IIIT Pet 宠物图像数据
- Nature Conservancy Fisheries Monitoring 过度捕捞监控图像数据【Kaggle数据】
材质纹理图像
- CURET 纹理材质图像数据
- ETHZ Synthesizability 纹理图像数据
- KTH-TIPS 纹理材质图像数据
- Describable Textures 纹理图像数据
物体分类图像
- COIL-20 图像数据
- COIL-100 图像数据
- Caltech-101 图像数据
- Caltech-256 图像数据
- CIFAR-10 图像数据
- CIFAR-100 图像数据
- STL-10 图像数据
- LabelMe_12_50k图像数据
- NORB v1.0 图像数据
- NEC Toy Animal 图像数据
- iCubWorld 图像分类数据
- Multi-class 图像分类数据
- GRAZ 图像分类数据
人脸图像
- IMDB-WIKI 500k+ 人脸图像、年龄性别数据
- Labeled Faces in the Wild 人脸数据
- Extended Yale Face Database B 人脸数据
- Bao Face 人脸数据
- DC-IGN 论文人脸数据
- 300 Face in Wild 图像数据
- BioID Face 人脸数据
- CMU Frontal Face Images
- FDDB_Face Detection Data Set and Benchmark
- NIST Mugshot Identification Database
- Faces in the Wild 人脸数据
- CelebA 名人人脸图像数据
- VGG Face 人脸图像数据
- Caltech 10k Web Faces 人脸图像数据
姿势动作图像
- HMDB_a large human motion database
- Human Actions and Scenes Dataset
- Buffy Stickmen V3 人体轮廓识别图像数据
- Human Pose Evaluator 人体轮廓识别图像数据
- Buffy pose 人类姿势图像数据
- VGG Human Pose Estimation 姿势图像标注数据
指纹识别图像
- NIST FIGS 指纹识别数据
- NIST Supplemental Fingerprint Card Data (SFCD) 指纹识别数据
- NIST Plain and Rolled Images from Paired Fingerprint Cards in 500 pixels per inch 指纹识别数据
- NIST Plain and Rolled Images from Paired Fingerprint Cards in 1000 pixels per inch 指纹识别数据
其他图像数据
- Visual Question Answering V1.0 图像数据
- Visual Question Answering V2.0 图像数据

视频数据集

综合视频
- DAVIS_Densely Annotated Video Segmentation 数据
- YouTube-8M 视频数据集【数据太大仅有介绍】
- YouTube 网站视频备份【数据太大仅有介绍】
人类动作视频
- Microsoft Research Action 人类动作视频数据
- UCF50 Action Recognition 动作识别数据
- UCF101 Action Recognition 动作识别数据
- UT-Interaction 人类动作视频数据
- UCF iPhone 运动中传感器数据
- UCF YouTube 人类动作视频数据
- UCF Sport 人类动作视频数据
- UCF-ARG 人类动作视频数据
- HMDB 人类动作视频
- HOLLYWOOD2 人类行为动作视频数据
- Recognition of human actions 动作视频数据
- Motion Capture 动作捕捉视频数据
- SBU Kinect Interaction 肢体动作视频数据
目标检测视频
- UCSD Pedestrian 行人视频数据
- Caltech Pedestrian 行人视频数据
- ETH 行人视频数据
- INRIA 行人视频数据
- TudBrussels 行人视频数据
- Daimler 行人视频数据
- ALOV++ 物体追踪视频数据
密集人群视频
- Crowd Counting 高密度人群图像
- Crowd Segmentation 高密度人群视频数据
- Tracking in High Density Crowds 高密度人群视频
其他视频
- Fire Detection 视频数据

音频数据集

综合音频
- Google Audioset 音频数据【数据太大仅有介绍】
语音识别
- Sinhala TTS 英语语音识别
- TIMIT 美式英语语音识别数据
- LibriSpeech ASR corpus 语音数据
- Room Impulse Response and Noise 语音数据
- ALFFA 非洲语音数据
- THUYG-20 维吾尔语语音数据
- AMI Corpus 语音识别

自然语言处理数据集

RCV1英语新闻数据
20news 英语新闻数据
First Quora Release Question Pairs 问答数据
JRC Names各国语言专有实体名称
Multi-Domain Sentiment V2.0
LETOR 信息检索数据
Yale Youtube Vedio Text
斯坦福问答数据【Kaggle数据】
美国假新闻数据【Kaggle数据】
NIPS会议文章信息数据（1987-2016）【Kaggle数据】
2016年美国总统选举辩论数据【Kaggle数据】
WikiLinks 跨文档指代语料
European Parliament Proceedings Parallel Corpus 机器翻译数据
WikiText 英语语义词库数据
WMT 2011 News Crawl 机器翻译数据
Stanford Sentiment Treebank 词汇数据
英语语言模型单词预测竞赛数据

社会数据集

希拉里邮件门泄露邮件
波士顿Airbnb 公开数据【Kaggle数据】
世界各国经济发展数据【Kaggle数据】
世界大学排名芝加哥犯罪数据（2001-2017）【Kaggle数据】
世界范围显著地震数据（1965-2016）【Kaggle数据】
美国婴儿姓名数据【Kaggle数据】
全世界鲨鱼袭击人类数据【Kaggle数据】
1908年以来空难数据【Kaggle数据】
2016年美国总统大选数据【Kaggle数据】
2013年美国社区统计数据【Kaggle数据】
2014年美国社区统计数据【Kaggle数据】
2015年美国社区统计数据【Kaggle数据】
欧洲足球运动员赛事表现数据【Kaggle数据】
美国环境污染数据【Kaggle数据】
美国H1-B签证申请数据【Kaggle数据】
IMDB五千部电影数据【Kaggle数据】
2015年航班延误和取消数据【Kaggle数据】
凶杀案报告数据【Kaggle数据】
人力资源分析数据【Kaggle数据】
美国费城犯罪数据【Kaggle数据】
安然公司

搜集汇总

数据集介绍

构建方式

多领域数据集集合的构建采用了一种集成策略，将多个领域的数据集进行汇编，涵盖文本、图像、音频等多种数据类型。通过领域专家的严格筛选与数据预处理，确保了数据的多样性和高质量，实现了对多领域知识体系的全面覆盖。

特点

该数据集集合具备以下显著特点：首先，数据覆盖范围广泛，涉及多个学科领域；其次，数据质量高，经过专业审核和清洗；再次，数据集具有较好的互操作性，便于跨领域的研究和应用；最后，数据更新及时，保持与最新研究成果的同步。

使用方法

用户在使用该数据集集合时，应首先根据研究需求选择合适的数据领域，然后遵循数据集使用协议进行下载和利用。数据集提供了详细的文档和示例代码，方便用户快速上手。此外，用户还需注意数据集的版权和隐私问题，确保在合法合规的前提下开展研究工作。

背景与挑战

背景概述

多领域数据集集合的构建旨在为研究人员提供一个综合性的资源库，以促进人工智能领域内的多任务学习和迁移学习研究。该数据集集合由多个研究机构和学者共同开发，创建于近年来，汇集了不同领域的数据集，如文本、图像、音频等。其主要研究人员涵盖了机器学习、自然语言处理、计算机视觉等多个领域的专家。该数据集集合的核心研究问题是如何通过跨领域的知识共享和模型迁移，提高模型在不同任务和领域上的表现力，对迁移学习和多模态学习等相关领域产生了重要影响。

当前挑战

该数据集集合面临的挑战主要包括：1) 数据多样性和异构性带来的整合难度，如何确保不同领域数据的一致性和兼容性；2) 跨领域任务学习的挑战，如何在保持数据特性的同时，实现有效的知识迁移；3) 数据标注的质量控制，确保多领域数据集的标注准确性和一致性；4) 数据隐私和伦理问题，如何在保护用户隐私的同时，提供足够的数据支持研究。

常用场景

经典使用场景

在众多学术研究与工业应用中，多领域数据集集合以其广泛覆盖的领域特点，被广泛应用于机器学习模型的训练与验证。该数据集经典使用场景在于，为算法提供多源异构的数据，从而使得模型能够捕捉到不同领域之间的内在关联性，实现跨领域的知识迁移与融合。

实际应用

在实际应用场景中，多领域数据集集合被广泛用于开发多模态识别系统、推荐系统以及自然语言处理任务。例如，在电子商务领域，该数据集可用于构建更加智能的个性化推荐算法，提高用户体验；在医疗健康领域，则可用于辅助诊断系统，增强诊断的准确性和全面性。

衍生相关工作

基于多领域数据集集合，学术界和工业界衍生了众多经典工作。这些研究不仅涉及跨领域知识融合、多模态学习等理论探索，还包括了在实际场景中的应用研究，如跨领域情感分析、多领域文本分类等，极大地推动了相关领域的技术进步和理论发展。

以上内容由遇见数据集搜集并总结生成