TensorFlow Datasets

github2020-04-19 更新2024-05-31 收录

下载链接：

https://github.com/bhav09/datasets

下载链接

链接失效反馈

官方服务：

资源简介：

TensorFlow数据集提供多种公共数据集作为`tf.data.Datasets`。

TensorFlow Datasets provides a variety of public datasets as `tf.data.Datasets`.

创建时间：

2020-04-17

原始信息汇总

数据集概述

数据集提供

平台: TensorFlow Datasets
功能: 提供多种公共数据集作为tf.data.Datasets。

数据集示例 - MNIST

数据集名称: MNIST
描述: 手写数字数据库
主页: MNIST数据库
特征:
- 图像: 形状为(28, 28, 1)，数据类型为tf.uint8
- 标签: 形状为空，数据类型为tf.int64，类别数为10
总样本数: 70000
分割:
- 训练集: 60000样本
- 测试集: 10000样本
监督键: (image, label)
引用: MNIST数据库引用

使用NumPy

功能: 使用tfds.as_numpy将tf.data.Dataset转换为NumPy数组生成器，便于使用NumPy进行模型组件开发。

引用

引用格式:

@misc{TFDS, title = {{TensorFlow Datasets}, A collection of ready-to-use datasets}, howpublished = {url{https://www.tensorflow.org/datasets}}, }

请求数据集

添加数据集: 遵循指南添加新数据集。
数据集请求: 通过GitHub问题请求新数据集。

搜集汇总

数据集介绍

构建方式

TensorFlow Datasets作为TensorFlow的子项目，旨在提供多种公共数据集，以tf.data.Datasets的形式集成。该数据集的构建主要依赖于TensorFlow内置的`tf.data`库，通过高效的数据管道构建方法，实现了数据集的下载、准备和加载过程。用户可以通过继承`tfds.core.DatasetBuilder`类来实现自定义数据集的构建，进而通过`tfds.builder`或`tfds.load`获取数据集对象。

特点

TensorFlow Datasets具备以下特点：首先，它支持多种数据集的版本控制，确保数据的一致性和可复现性；其次，提供了 splits 和 slicing API，允许用户灵活地对数据集进行切片和划分；此外，数据集支持性能优化建议，帮助用户构建更高效的数据输入管道。同时，该数据集库还支持将数据存储在Google Cloud Storage上，便于大规模分布式训练。

使用方法

使用TensorFlow Datasets非常直观，用户仅需通过`pip`安装相应的库，然后利用`tfds.load`函数加载所需的数据集。此外，用户还可以通过`tfds.builder`获取数据集构建器，进而进行更细致的数据集操作，如下载、准备和转换。对于需要NumPy数组的用户，`tfds.as_numpy`函数可以方便地提供数据集的NumPy表示形式。

背景与挑战

背景概述

TensorFlow Datasets，简称TFDS，是由TensorFlow团队开发的一个开源库，旨在为研究者提供方便快捷的公共数据集访问方式。该库创建于2018年，由Google的TensorFlow团队维护，其核心研究问题是构建高效、易于使用且具有可扩展性的数据集加载与预处理工具。TFDS对机器学习领域，尤其是深度学习领域的研究与发展产生了重要影响，极大地降低了研究人员获取与处理数据集的门槛。

当前挑战

TensorFlow Datasets面临的挑战主要涉及两个方面：一是数据集的多样性和规模不断扩大带来的维护和更新挑战；二是确保数据加载和预处理的高效性，以满足日益增长的计算需求。此外，数据集的版权和合规性问题也是一大挑战，需要确保所有数据集的合法使用和分发。

常用场景

经典使用场景

TensorFlow Datasets作为TensorFlow的官方数据集库，其经典使用场景主要在于为机器学习模型训练提供标准化、易用的数据集。用户可以通过简洁的API调用来加载、处理和转换多种格式的数据集，例如MNIST、CIFAR-10等，进而直接用于模型的训练与验证。

衍生相关工作

基于TensorFlow Datasets，衍生出了许多经典的相关工作，如数据增强技术的集成、自定义数据集的加载方法、以及针对特定应用场景的数据预处理流程。这些工作进一步扩展了TensorFlow Datasets的功能，为机器学习社区的研究与应用提供了更为丰富的工具和方法。

数据集最近研究

TensorFlow Datasets

数据集概述

数据集提供

数据集列表与使用

数据集特性与性能

添加数据集

API文档

数据集示例 - MNIST

使用NumPy

引用

请求数据集