TensorFlow Datasets

github2019-10-12 更新2024-05-31 收录

下载链接：

https://github.com/zil317/datasets

下载链接

链接失效反馈

官方服务：

资源简介：

TensorFlow Datasets提供了许多公共数据集作为`tf.data.Datasets`。

TensorFlow 数据集提供了众多公共数据集，供用户以 `tf.data.Datasets` 的形式进行访问。

创建时间：

2019-09-26

原始信息汇总

数据集概述

TensorFlow Datasets 提供了多种公共数据集，这些数据集可以作为 tf.data.Datasets 使用。

数据集列表

链接: List of datasets

数据集使用示例

Colab 示例: Try it in Colab

API 文档

API 文档链接: API docs

数据集版本管理

指南链接: Datasets versioning

使用分割和切片API

指南链接: Using splits and slicing API

添加数据集

指南链接: Add a dataset

添加大型数据集

指南链接: Add a huge dataset (>>100GiB)

数据集安装与使用

安装

命令: pip install tensorflow-datasets
依赖: 需要 TF 1.14+ 安装。

使用

示例代码: python import tensorflow_datasets as tfds import tensorflow as tf

tf.enable_eager_execution() print(tfds.list_builders()) ds_train, ds_test = tfds.load(name="mnist", split=["train", "test"]) ds_train = ds_train.shuffle(1000).batch(128).prefetch(10) for features in ds_train.take(1): image, label = features["image"], features["label"]

数据集构建器 (`DatasetBuilder`)

实现: 所有数据集都实现为 DatasetBuilder 的子类。
使用示例: python import tensorflow_datasets as tfds

mnist_builder = tfds.builder("mnist") mnist_builder.download_and_prepare() ds = mnist_builder.as_dataset(split=tfds.Split.TRAIN) info = mnist_builder.info print(info)

NumPy 使用

使用方法: 使用 tfds.as_numpy 从 tf.data.Dataset 获取 NumPy 数组记录。
示例代码: python train_ds = tfds.load("mnist", split=tfds.Split.TRAIN) train_ds = train_ds.shuffle(1024).batch(128).repeat(5).prefetch(10) for example in tfds.as_numpy(train_ds): numpy_images, numpy_labels = example["image"], example["label"]

请求特定数据集

添加数据集指南: Add a dataset
数据集请求: 通过 GitHub 问题提出。

免责声明

责任: 用户需自行确定是否有权使用数据集。
更新与移除: 数据集所有者可通过 GitHub 联系更新或移除数据集。

搜集汇总

数据集介绍

构建方式

TensorFlow Datasets 是一个集成在 TensorFlow 中，用于提供多种公共数据集的库，这些数据集以 tf.data.Datasets 的形式存在。该库通过构建名为 `DatasetBuilder` 的数据集构建器 subclasses 来实现数据集的构建，用户可以通过 `tfds.load` 接口便捷地加载所需的数据集。

使用方法

使用 TensorFlow Datasets 首先需要通过 pip 安装相关库，然后可以通过调用 `tfds.load` 函数加载特定的数据集。用户可以指定数据集的分割，如训练集和测试集，并通过 `shuffle`、`batch` 和 `prefetch` 方法构建高效的数据输入管道。对于需要 NumPy 数组的情况，可以使用 `tfds.as_numpy` 函数来转换数据格式。

背景与挑战

背景概述

TensorFlow Datasets是由TensorFlow团队开发的一个开源库，旨在为研究人员和开发者提供便捷的方式来访问和使用大量公共数据集。自推出以来，它极大地便利了机器学习领域的数据集准备工作，降低了数据处理的复杂性。该库创建于2018年，主要研究人员来自Google Brain团队，其核心研究问题是简化数据集的获取和使用流程，提高数据加载的效率和灵活性。TensorFlow Datasets支持多种数据集，并提供了版本控制功能，确保数据的一致性和可重复性，对机器学习和深度学习社区产生了显著影响。

当前挑战

尽管TensorFlow Datasets提供了丰富的数据集和便捷的接口，但在构建过程中也面临了一些挑战。首先，数据集的多样性和规模不断增长，对库的维护和更新提出了更高的要求。其次，数据集的下载和准备过程需要优化，以确保在不同网络环境和存储条件下的高效性。此外，数据集的许可和使用问题需要用户自行负责，这对库的使用提出了额外的合规性挑战。

常用场景

经典使用场景

TensorFlow Datasets作为TensorFlow的官方数据集工具，其经典使用场景在于为机器学习模型的训练提供标准化的数据集。用户可以轻松加载如MNIST、CIFAR-10等常见数据集，通过其提供的API构建高效的数据输入管道，进而实现模型的训练、验证和测试。

解决学术问题

该数据集解决了学术研究中数据集获取、处理和加载的繁琐过程，通过统一的数据加载接口，简化了数据预处理步骤，使得研究者能够更加专注于模型设计和算法优化。此外，数据集版本控制功能确保了实验的可重复性，对学术研究具有重要的意义和影响。

实际应用

在实际应用中，TensorFlow Datasets被广泛用于构建和训练各种机器学习模型，如计算机视觉、自然语言处理等领域。其高效的数据加载机制使得大规模数据集的处理变得可行，为实际应用中的模型部署提供了强有力的数据支撑。

数据集最近研究