TensorFlow Datasets

github2019-09-16 更新2024-05-31 收录

下载链接：

https://github.com/turgunyusuf/datasets

下载链接

链接失效反馈

官方服务：

资源简介：

TensorFlow Datasets提供了许多公共数据集作为`tf.data.Datasets`。

TensorFlow 数据集提供了一系列公开的数据集，这些数据集均以 `tf.data.Datasets` 的形式呈现。

创建时间：

2019-05-11

原始信息汇总

数据集概述

数据集列表

链接: List of datasets

数据集使用示例

Python 代码示例: python import tensorflow_datasets as tfds import tensorflow as tf

tf.enable_eager_execution()

print(tfds.list_builders()) ds_train, ds_test = tfds.load(name="mnist", split=["train", "test"]) ds_train = ds_train.shuffle(1000).batch(128).prefetch(10) for features in ds_train.take(1): image, label = features["image"], features["label"]

数据集构建器 (`DatasetBuilder`)

实现: 所有数据集作为 DatasetBuilder 的子类实现。
使用示例: python import tensorflow_datasets as tfds

mnist_builder = tfds.builder("mnist") mnist_builder.download_and_prepare() ds = mnist_builder.as_dataset(split=tfds.Split.TRAIN) info = mnist_builder.info print(info)

NumPy 使用 (`tfds.as_numpy`)

功能: 提供将 tf.data.Dataset 转换为 NumPy 数组的生成器。
使用示例: python train_ds = tfds.load("mnist", split=tfds.Split.TRAIN) train_ds = train_ds.shuffle(1024).batch(128).repeat(5).prefetch(10) for example in tfds.as_numpy(train_ds): numpy_images, numpy_labels = example["image"], example["label"]

请求特定数据集

添加数据集指南: Add a dataset
数据集请求: 通过 GitHub issue 提出。

免责声明

数据集的下载和准备由用户自行负责，包括数据集的使用许可和质量。

搜集汇总

数据集介绍

构建方式

TensorFlow Datasets 是一个提供多种公共数据集的库，作为 `tf.data.Datasets` 形式存在。该数据集的构建基于 TensorFlow 框架，通过 `DatasetBuilder` 类及其子类实现各个数据集的具体构建。用户可以通过 `tfds.load` 函数加载所需的数据集，数据集在加载前会自动进行下载和准备，这一过程通过预定义的构建流程完成，确保了数据集的一致性和可用性。

特点

该数据集的特点在于其涵盖了广泛的应用领域，如计算机视觉、自然语言处理等，并且支持即时的数据预处理和增强。此外，数据集支持 Eager 和 Graph 模式，能够灵活地适应不同的使用场景。每个数据集都附带详尽的 `DatasetInfo` 对象，其中包含了数据集的描述、特征、版本、 splits 信息以及引用，极大地方便了用户对数据集的理解和使用。

使用方法

使用 TensorFlow Datasets 首先需要通过 `pip` 安装相关库。在加载数据集时，用户可以使用 `tfds.load` 函数，并指定数据集名称和 split（如 'train' 或 'test'）。数据集加载后，用户可以构建输入管道，进行数据的 shuffle、batch 和 prefetch 操作，以优化训练过程。对于需要 NumPy 数组形式数据的用户，可以使用 `tfds.as_numpy` 函数来转换 `tf.data.Dataset` 对象。

背景与挑战

背景概述

TensorFlow Datasets是由Google主导的开源机器学习框架TensorFlow的一部分，旨在为研究人员和开发者提供便捷的数据集加载和预处理工具。该项目创建于2018年，由TensorFlow团队的核心成员维护。该数据集集合了众多公开的数据集，通过tf.data.Datasets接口进行统一管理，极大地简化了数据集的获取和处理流程。TensorFlow Datasets的推出，对推动深度学习领域的研究与应用起到了积极作用，使得研究人员可以更加专注于模型训练和算法创新，而无需在数据准备上耗费过多时间。

当前挑战

尽管TensorFlow Datasets提供了丰富的数据集和便捷的接口，但在构建和使用过程中也面临一些挑战。首先，数据集的质量和多样性对模型训练至关重要，如何保证所提供数据集的准确性和时效性是一个挑战。其次，数据集的规模和复杂性不断增加，对计算资源和存储提出了更高的要求。此外，数据集的版权和隐私问题也是当前需要关注的重点，确保数据的使用不侵犯个人隐私和版权是构建数据集时必须考虑的问题。

常用场景

经典使用场景

TensorFlow Datasets作为TensorFlow的官方数据集工具，广泛应用于深度学习领域，其经典使用场景在于为模型训练提供标准化、易用的数据集。用户可通过简单的API调用，加载如MNIST、CIFAR-10等常见数据集，进而快速构建数据输入管道，进行模型的训练与验证。

衍生相关工作

基于TensorFlow Datasets，衍生出了一系列相关的经典工作，包括对数据集的扩展、改进以及针对特定任务的定制化数据集构建。这些工作不仅丰富了TensorFlow生态系统，也为机器学习领域的学术研究和工业应用提供了宝贵的资源和工具。

数据集最近研究