TensorFlow Datasets

github2019-10-10 更新2024-05-31 收录

下载链接：

https://github.com/HubBucket-Team/datasets

下载链接

链接失效反馈

官方服务：

资源简介：

TensorFlow Datasets 提供了许多作为 `tf.data.Datasets` 的公共数据集。

TensorFlow 数据集提供了众多以 `tf.data.Datasets` 格式公开的数据集。

创建时间：

2019-10-10

原始信息汇总

数据集概述

TensorFlow Datasets 提供了多种公共数据集，这些数据集可以作为 tf.data.Datasets 使用。

数据集列表

链接: 数据集列表

数据集使用示例

Colab 示例: 在 Colab 中尝试

数据集API文档

API 文档: API 文档

数据集版本管理

版本管理: 数据集版本管理

数据集分割和切片API

分割和切片API: 使用分割和切片API

添加数据集指南

添加数据集: 添加数据集指南
添加大型数据集: 添加大型数据集指南

数据集安装与使用

安装

安装命令: sh pip install tensorflow-datasets pip install tensorflow

使用示例

Python 代码示例: python import tensorflow_datasets as tfds import tensorflow as tf

tf.compat.v1.enable_eager_execution() print(tfds.list_builders()) ds_train, ds_test = tfds.load(name="mnist", split=["train", "test"]) ds_train = ds_train.shuffle(1000).batch(128).prefetch(10) for features in ds_train.take(1): image, label = features["image"], features["label"]

数据集构建器 (`DatasetBuilder`)

数据集构建器: DatasetBuilder
数据集信息: DatasetInfo

示例代码

python import tensorflow_datasets as tfds

mnist_builder = tfds.builder("mnist") mnist_builder.download_and_prepare() ds = mnist_builder.as_dataset(split=tfds.Split.TRAIN) info = mnist_builder.info print(info)

NumPy 使用

使用 tfds.as_numpy: python train_ds = tfds.load("mnist", split=tfds.Split.TRAIN) train_ds = train_ds.shuffle(1024).batch(128).repeat(5).prefetch(10) for example in tfds.as_numpy(train_ds): numpy_images, numpy_labels = example["image"], example["label"]

请求数据集

添加数据集: 添加数据集指南
数据集请求: 数据集请求GitHub问题

搜集汇总

数据集介绍

构建方式

TensorFlow Datasets 通过对多种公开数据集的整合，实现了数据集的自动化下载、预处理和加载。该平台基于 TensorFlow 构建了一套完整的 `tf.data.Dataset` 对象生成流程，用户可以通过继承 `DatasetBuilder` 类来定制化数据集构建过程，其中包括数据集的下载、准备、以及转换为 TensorFlow 数据集格式等步骤。

特点

TensorFlow Datasets 拥有丰富的数据集资源，支持多种常见的数据集，并提供灵活的数据集版本管理、切片API和NumPy使用方式。此外，它支持数据集信息的详尽文档化，包括数据集的描述、特征、示例数量等，以及为监督学习任务提供的标签信息。其特点在于易用性、灵活性和可扩展性。

使用方法

使用 TensorFlow Datasets 首先需要通过 `pip` 安装相关库。之后，用户可以利用 `tfds.load` 函数加载预定义的数据集，或通过 `DatasetBuilder` 类自定义数据集。数据集加载后，可以应用 TensorFlow 数据集的API进行打乱、批处理、预取等操作以构建输入管道，并通过 `tfds.as_numpy` 函数将数据转换为NumPy数组格式，以便于在模型中使用。

背景与挑战

背景概述

TensorFlow Datasets，简称TFDS，是由Google主导开发的一个开源机器学习数据集库。该库创建于2018年，旨在为TensorFlow用户提供一个便捷的数据集平台，它包含了众多公开数据集，并以`tf.data.Datasets`的形式提供。TFDS的核心研究人员来自Google AI，其核心研究问题是简化数据集的加载、处理和版本控制，以提高机器学习研究的效率。TFDS的推出极大地促进了深度学习领域的发展，受到了广大研究者和开发者的欢迎。

当前挑战

TensorFlow Datasets在解决数据集加载与处理问题的同时，也面临着一些挑战。首先，随着数据集的不断增多，如何高效管理和维护这些数据集成为一个问题。其次，构建过程中确保数据集的质量、完整性和合法性也是一大挑战。此外，不同数据集的版本控制和更新机制也需要不断完善，以适应不断变化的TensorFlow框架和用户需求。

常用场景

经典使用场景

TensorFlow Datasets作为TensorFlow的官方数据集工具，其经典使用场景在于为深度学习模型训练提供标准化、易用的数据集。用户可以通过简单的API调用，加载如MNIST、CIFAR-10等常见数据集，快速构建和迭代模型。

实际应用

在实际应用中，TensorFlow Datasets被广泛应用于机器学习工程师和数据科学家的日常工作中，用于快速原型设计和模型验证。它支持大规模数据集的加载和预处理，有效提升了模型开发和部署的效率。

衍生相关工作

基于TensorFlow Datasets，衍生出了大量相关的工作，包括数据集的扩展、改进以及针对特定任务的定制化数据集构建。这些工作不仅丰富了TensorFlow生态系统，也为机器学习领域的研究和应用提供了强有力的数据支持。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集