多个数据集
收藏github2024-05-21 更新2024-05-31 收录
下载链接:
https://github.com/rudvlf0413/Dataset
下载链接
链接失效反馈官方服务:
资源简介:
该仓库收集了多个领域的数据集,包括图像识别、分类、生成等,以及医学领域的数据集,如肺癌、脑瘤等。
This repository aggregates datasets across multiple domains, encompassing image recognition, classification, generation, as well as datasets in the medical field, such as those related to lung cancer and brain tumors.
创建时间:
2017-03-27
原始信息汇总
视觉数据集
分类或识别或生成
- Coil-20
- STL-10: Self-taught learning
- MS COCO
- US Post Office Zip Code Data
- Google Conceptual Caption dataset
- Visual Storytelling Dataset (VIST)
- NVIDIA food Image classification
- CIFAR-10, CIFAR-100
- Large-scale CelebFaces Attributes (CelebA) Dataset
- Street View House Numbers (SVHN)
- MNIST
- Facial Database
- Labeled Faces in the Wild
- Simple Vector Drawing Datasets
- Places2 (공간 사진, 정보 데이터)
- Yelp dataset (식당 정보, 사진)
- DeepFashion
- Image to Latex (수식 이미지를 latex 코드로 만드는 데이터셋입니다.)
- NIST Dataset(Fingerprint, Mugshot, OCR)
- Biometics ideal test dataset(Iris, Fingerprint, Face, palmprint, handwriting etc. - 로그인 필요!)
- PASCAL 2012 Dataset (Classification & Detection)
- Flickr Image Dataset
- Stanford dogs dataset
- CUB-200 dataset (birds)
- Facial beauty score dataset
- Tumblr GIF dataset
- Totally looks like dataset
- CAISA WebFace databaset
- Labeled Faces in the Wild Home
- Behance Artistic Media Dataset
- Handwriting databaset
- ImageCLEF dataset - Cross language image retrieval task
- Yale-b - The extended Yale face database
- Visual Relationship Detection dataset
- 链接: Images Annotations
- Visual Genome dataset
- Oxford-102 dataset (Flower)
- UCSD Pedestrian dataset (video anomaly detection)
医学数据集
- Lung cancer dataset
- Brain tumor dataset
- Breast cancer dataset (kaggle)
- The cancer image archive
- Mammograpy dataset
- Bio Image Dataset @ IIIT Delhi
- CAMELYON 16 - metatstasis detection in lymph node
- CAMELYON17 Dataset
视频与图像流数据集
- YouTube-BoundingBoxes Dataset
- Youtube-8M Dataset
- The Kinetics Human Action Video Dataset
- Announcing AVA: A Finely Labeled Video Dataset for Human Action Understanding
- Microsoft Kinect dataset
文本数据集
机器翻译
- StatMT(Machine Translation, summarization 등의 태스크를 위한 데이터셋으로 나라-나라 쌍의 데이터셋입니다.)
- UN parallel Corpus
- IWSLT Dataset (including TED Translation)
- The Stacks Project(대수기하학 책의 원본과 latex 코드 pair set?)
- Google sentence compression(Google에서 문장을 정형화 한 데이터입니다.)
- 조선왕조실록(한글/한문 번역)
- OpenSubtitles
分类与主题建模
- 20 Newsgroups
- Reuter dataset
- SNLI(Stanford Natural Language Inference) dataset
短文本
- Tweet data, a subset of TREC 2011 microblog track
- Title data, including news titles with class labels from some news websites
- Italia earthquake twitter dataset
改写
- Paraphrase database
QA与对话
- bAbI dataset (Facebook Question Answering)
- Question/Answering(빈칸추론문제) pairs using CNN/Daily Mail articles
- Stanford Question Answering Dataset
- Korean Squad dataset
- RACE Reading Comprehension datraset
- GLUE (General Language Understanding Evaluation) benchmark dataset
- ClueWeb12 dataset (information retrieval)
- CLEVR: A Diagnostic Dataset for Compositional Language and Elementary Visual Reasoning
- WikiReading dataset
- SEMPRE: Semantic Parsing with Execution
- Dialogue system datasets
- WikiSQL dataset
- SynthText dataset
- Cornell Movie dialogue corpus
词嵌入
- Word2Vec에 쓰인 데이터셋(위키피디아, WMT11 등)
- Fast Text pre-trained vector set
情感分析
- Stanford Sentiment Treebank(SST)
- Multi-Domain Sentiment Dataset
- Visual sentiment ontology
- Radboud Face Database (rbfd)
- Aspect sentiment analysis with aspect category
原始文本
- Common Crawl dataset
声音数据集
- Nottingham music dataset
- A large-scale dataset of manually annotated audio events (Google research)
- Speech Command Dataset
- Mozilla DeepSpeech
知识库数据集
- Freebase
- Wordnet
- Microsoft Concept Graph
- DBPedia Dataset
- Yago
- Google Knowledge graph API
社交网络与推荐系统数据集
- AMiner - Datasets for social network Analysis
- Netflix Prize Data Set
- 链接: <http://academictorrents.com/details/9b13183dc4d60676b77
搜集汇总
数据集介绍

构建方式
该数据集集合了多个领域的公开数据集,涵盖了视觉、医学、文本、声音、知识库、社交网络等多个领域。这些数据集来源于不同的研究论文和公开资源,包括但不限于Coil-20、STL-10、MS COCO、MNIST等知名数据集。每个数据集都经过精心挑选和整理,以确保其质量和适用性。数据集的构建过程包括数据收集、清洗、标注和验证,确保数据的准确性和一致性。
使用方法
使用该数据集集合时,用户可以根据具体的研究或应用需求选择合适的数据集。首先,用户需要访问相应的数据集链接,下载所需的数据文件。然后,根据数据集的格式和结构,进行数据预处理和加载。对于图像和文本数据,通常需要进行归一化、分词等预处理步骤。最后,用户可以将处理后的数据用于模型训练、验证和测试。部分数据集还提供了API或工具包,方便用户快速集成和使用。
背景与挑战
背景概述
多个数据集是一个汇集了多种领域和应用场景的数据集集合,涵盖了视觉、医学、文本、声音、知识库、社交网络等多个领域。这些数据集的创建时间跨度较大,主要研究人员和机构包括哥伦比亚大学、斯坦福大学、微软研究院、谷歌等知名机构。这些数据集的核心研究问题涉及图像分类、自然语言处理、医疗诊断、社交网络分析等多个前沿领域。这些数据集的发布对相关领域的研究产生了深远影响,为研究人员提供了丰富的实验数据和基准测试资源。
当前挑战
多个数据集在构建过程中面临了多方面的挑战。首先,数据集的多样性带来了数据格式和标注标准的不一致性,增加了数据整合和处理的复杂性。其次,部分数据集涉及敏感信息,如医疗数据和社交网络数据,如何在保护隐私的前提下进行数据共享和分析是一个重要挑战。此外,数据集的规模和质量也存在差异,如何确保数据集的可靠性和代表性是研究人员需要解决的问题。最后,随着技术的不断发展,数据集需要不断更新和扩展,以适应新的研究需求和应用场景。
常用场景
经典使用场景
在计算机视觉领域,这些数据集广泛应用于图像分类、目标识别和生成模型等任务。例如,CIFAR-10和CIFAR-100数据集常用于图像分类算法的基准测试,而MS COCO数据集则被广泛用于目标检测和图像分割的研究。此外,MNIST数据集作为手写数字识别的经典数据集,为初学者提供了丰富的训练和测试资源。
解决学术问题
这些数据集在学术研究中解决了多个关键问题,如图像分类的准确性提升、目标检测的实时性和精确性、以及生成模型的多样性和真实性。通过提供多样化和大规模的图像数据,这些数据集推动了深度学习算法的发展,特别是在卷积神经网络(CNN)和生成对抗网络(GAN)的研究中,为学术界提供了宝贵的实验平台。
实际应用
在实际应用中,这些数据集被广泛用于开发和优化各种视觉系统。例如,CelebA数据集用于人脸识别和属性分析,而Street View House Numbers (SVHN)数据集则支持门牌号识别系统。此外,DeepFashion数据集在时尚行业的图像搜索和推荐系统中发挥了重要作用,帮助提升了用户体验和业务效率。
数据集最近研究
最新研究方向
在计算机视觉领域,多个数据集的最新研究方向主要集中在图像分类、目标识别和生成模型上。例如,MS COCO数据集被广泛用于图像理解和语义分割任务,而Visual Genome数据集则推动了视觉关系检测和场景理解的研究。此外,DeepFashion和CelebA等数据集在时尚和人脸识别领域取得了显著进展,推动了个性化推荐和人脸分析技术的发展。这些数据集不仅为学术研究提供了丰富的资源,也在实际应用中展现了巨大的潜力,如在医疗影像分析、自动驾驶和智能监控系统中的应用。
以上内容由遇见数据集搜集并总结生成



