zalando-datasets/fashion_mnist|图像分类数据集|时尚数据集数据集
收藏数据集概述
数据集描述
数据集摘要
Fashion-MNIST 是一个包含 Zalando 商品图像的数据集,由 60,000 个训练样本和 10,000 个测试样本组成。每个样本是一个 28x28 灰度图像,关联一个从 10 个类别中选择的标签。该数据集旨在作为机器学习算法的基准测试,直接替代原始的 MNIST 数据集。
支持的任务和排行榜
image-classification
:目标是将有标签的 Zalando 商品图像分类到 10 个类别中的一个。
语言
- 数据集语言:英语
数据集结构
数据实例
每个数据点包含一个图像及其标签。
数据字段
image
:一个PIL.Image.Image
对象,包含 28x28 图像。label
:一个介于 0 和 9 之间的整数,表示以下类别:- 0: T-shirt/top
- 1: Trouser
- 2: Pullover
- 3: Dress
- 4: Coat
- 5: Sandal
- 6: Shirt
- 7: Sneaker
- 8: Bag
- 9: Ankle boot
数据分割
数据分为训练集和测试集。训练集包含 60,000 张图像,测试集包含 10,000 张图像。
数据集创建
策划理由
Fashion-MNIST 旨在解决原始 MNIST 数据集的以下问题:
- MNIST 过于简单。
- MNIST 被过度使用。
- MNIST 不能代表现代计算机视觉任务。
源数据
Fashion-MNIST 基于 Zalando 网站上的商品图像。原始图像为 762 × 1000 JPEG 格式,背景为浅灰色。图像经过一系列处理步骤,包括转换为 PNG 格式、裁剪、调整大小、锐化、扩展、反相和转换为 8 位灰度像素。
标注
类别标签使用商品的轮廓代码,由 Zalando 的内部时尚专家手动标注并由另一团队审核。
使用数据的注意事项
数据集的社会影响
[更多信息需要]
偏见的讨论
[更多信息需要]
其他已知限制
[更多信息需要]
附加信息
数据集策展人
Han Xiao, Kashif Rasul, Roland Vollgraf
许可信息
MIT 许可证
引用信息
@article{DBLP:journals/corr/abs-1708-07747, author = {Han Xiao and Kashif Rasul and Roland Vollgraf}, title = {Fashion-MNIST: a Novel Image Dataset for Benchmarking Machine Learning Algorithms}, journal = {CoRR}, volume = {abs/1708.07747}, year = {2017}, url = {http://arxiv.org/abs/1708.07747}, archivePrefix = {arXiv}, eprint = {1708.07747}, timestamp = {Mon, 13 Aug 2018 16:47:27 +0200}, biburl = {https://dblp.org/rec/bib/journals/corr/abs-1708-07747}, bibsource = {dblp computer science bibliography, https://dblp.org} }
贡献
感谢 @gchhablani 添加此数据集。

Figshare
Figshare是一个在线数据共享平台,允许研究人员上传和共享各种类型的研究成果,包括数据集、论文、图像、视频等。它旨在促进科学研究的开放性和可重复性。
figshare.com 收录
flames-and-smoke-datasets
该仓库总结了多个公开的火焰和烟雾数据集,包括DFS、D-Fire dataset、FASDD、FLAME、BoWFire、VisiFire、fire-smoke-detect-yolov4、Forest Fire等数据集。每个数据集都有详细的描述,包括数据来源、图像数量、标注信息等。
github 收录
PDT Dataset
PDT数据集是由山东计算机科学中心(国家超级计算济南中心)和齐鲁工业大学(山东省科学院)联合开发的无人机目标检测数据集,专门用于检测树木病虫害。该数据集包含高分辨率和低分辨率两种版本,共计5775张图像,涵盖了健康和受病虫害影响的松树图像。数据集的创建过程包括实地采集、数据预处理和人工标注,旨在为无人机在农业中的精准喷洒提供高精度的目标检测支持。PDT数据集的应用领域主要集中在农业无人机技术,旨在提高无人机在植物保护中的目标识别精度,解决传统检测模型在实际应用中的不足。
arXiv 收录
AgiBot World
为了进一步推动通用具身智能领域研究进展,让高质量机器人数据触手可及,作为上海模塑申城语料普惠计划中的一份子,智元机器人携手上海人工智能实验室、国家地方共建人形机器人创新中心以及上海库帕思,重磅发布全球首个基于全域真实场景、全能硬件平台、全程质量把控的百万真机数据集开源项目 AgiBot World。这一里程碑式的开源项目,旨在构建国际领先的开源技术底座,标志着具身智能领域 「ImageNet 时刻」已到来。AgiBot World 是全球首个基于全域真实场景、全能硬件平台、全程质量把控的大规模机器人数据集。相比于 Google 开源的 Open X-Embodiment 数据集,AgiBot World 的长程数据规模高出 10 倍,场景范围覆盖面扩大 100 倍,数据质量从实验室级上升到工业级标准。AgiBot World 数据集收录了八十余种日常生活中的多样化技能,从抓取、放置、推、拉等基础操作,到搅拌、折叠、熨烫等精细长程、双臂协同复杂交互,几乎涵盖了日常生活所需的绝大多数动作需求。
github 收录
THUCNews
THUCNews是根据新浪新闻RSS订阅频道2005~2011年间的历史数据筛选过滤生成,包含74万篇新闻文档(2.19 GB),均为UTF-8纯文本格式。本次比赛数据集在原始新浪新闻分类体系的基础上,重新整合划分出14个候选分类类别:财经、彩票、房产、股票、家居、教育、科技、社会、时尚、时政、体育、星座、游戏、娱乐。提供训练数据共832471条。
github 收录