COCO数据集|图像识别数据集|计算机视觉数据集
收藏COCO数据集概述
数据集名称与全称
- 名称:COCO数据集
- 全称:Common Objects in COntext
数据集来源与收集方式
- 来源:由微软团队提供
- 收集方式:通过在Flickr上搜索80个对象类别和各种场景类型,使用Amazon Mechanical Turk进行数据收集
数据集内容与标注类型
- 内容:包含图像识别相关的数据
- 标注类型:
- Object instances(目标实例)
- Object keypoints(目标上的关键点)
- Image captions(看图说话)
- 存储格式:JSON文件
数据集结构与文件类型
- 结构:数据集分为训练、验证和测试集
- 文件类型:包含6个JSON文件,分别对应三种标注类型的训练和验证集
JSON文件结构
-
基本结构: json { "info": info, "licenses": [license], "images": [image], "annotations": [annotation] }
-
info类型:包含年份、版本、描述、贡献者、URL和创建日期等信息
-
license类型:包含ID、名称和URL
-
image类型:包含ID、宽度、高度、文件名、许可证、Flickr URL、COCO URL和捕获日期
Object Instance 类型的标注格式
-
文件格式: json { "info": info, "licenses": [license], "images": [image], "annotations": [annotation], "categories": [category] }
-
annotations字段:包含多个annotation实例,每个实例包含ID、image_id、category_id、segmentation、area、bbox和iscrowd等字段
-
categories字段:包含多个category实例,每个实例包含ID、名称和supercategory
数据集特点
- 特点:数据集通过大量使用Amazon Mechanical Turk进行标注,支持多种标注类型,使用JSON格式存储,便于数据处理和分析。

jpft/danbooru2023
Danbooru2023是一个大规模的动漫图像数据集,包含超过500万张由爱好者社区贡献并详细标注的图像。图像标签涵盖角色、场景、版权、艺术家等方面,平均每张图像有30个标签。该数据集可用于训练图像分类、多标签标注、角色检测、生成模型等多种计算机视觉任务。数据集基于danbooru2021构建,扩展至包含ID #6,857,737的图像,增加了超过180万张新图像,总大小约为8TB。图像以原始格式提供,分为1000个子目录,使用图像ID的模1000进行分桶,以避免文件系统性能问题。
hugging_face 收录
ChemBL
ChemBL是一个化学信息学数据库,包含大量生物活性数据,涵盖了药物发现和开发过程中的各种化学实体。数据集包括化合物的结构信息、生物活性数据、靶点信息等。
www.ebi.ac.uk 收录
TM-Senti
TM-Senti是由伦敦玛丽女王大学开发的一个大规模、远距离监督的Twitter情感数据集,包含超过1.84亿条推文,覆盖了超过七年的时间跨度。该数据集基于互联网档案馆的公开推文存档,可以完全重新构建,包括推文元数据且无缺失推文。数据集内容丰富,涵盖多种语言,主要用于情感分析和文本分类等任务。创建过程中,研究团队精心筛选了表情符号和表情,确保数据集的质量和多样性。该数据集的应用领域广泛,旨在解决社交媒体情感表达的长期变化问题,特别是在表情符号和表情使用上的趋势分析。
arXiv 收录
猫狗图像数据集
该数据集包含猫和狗的图像,每类各12500张。训练集和测试集分别包含10000张和2500张图像,用于模型的训练和评估。
github 收录
Movies Dataset
这个数据集包含电影的详细信息,包括电影名称、评分、类型、年份、发布日期、IMDb评分、投票数、导演、编剧、主演、制作国家、预算、总收入、制作公司和电影时长。
github 收录