TensorFlow Datasets

github2019-11-01 更新2024-05-31 收录

下载链接：

https://github.com/thanhkaist/datasets

下载链接

链接失效反馈

官方服务：

资源简介：

TensorFlow Datasets 提供多种公共数据集作为`tf.data.Datasets`。

TensorFlow 数据集提供了多种公共数据集，以 `tf.data.Datasets` 的形式呈现。

创建时间：

2019-06-16

原始信息汇总

数据集概述

数据集提供

平台：TensorFlow Datasets
功能：提供多种公共数据集作为tf.data.Datasets

数据集列表

链接：List of datasets

数据集使用示例

Python代码： python import tensorflow_datasets as tfds import tensorflow as tf

tf.enable_eager_execution()

ds_train, ds_test = tfds.load(name="mnist", split=["train", "test"]) ds_train = ds_train.shuffle(1000).batch(128).prefetch(10) for features in ds_train.take(1): image, label = features["image"], features["label"]

数据集构建器 (`DatasetBuilder`)

实现：所有数据集作为DatasetBuilder的子类实现
使用示例： python mnist_builder = tfds.builder("mnist") mnist_builder.download_and_prepare() ds = mnist_builder.as_dataset(split=tfds.Split.TRAIN) info = mnist_builder.info print(info)

NumPy使用 (`tfds.as_numpy`)

功能：将tf.data.Dataset转换为NumPy数组
使用示例： python train_ds = tfds.load("mnist", split=tfds.Split.TRAIN) train_ds = train_ds.shuffle(1024).batch(128).repeat(5).prefetch(10) for example in tfds.as_numpy(train_ds): numpy_images, numpy_labels = example["image"], example["label"]

数据集请求

添加数据集：通过指南添加
请求数据集：通过GitHub issue请求

免责声明

责任：用户需自行确定使用数据集的权限和合法性
更新与移除：数据集所有者可通过GitHub issue更新或请求移除数据集

搜集汇总

数据集介绍

构建方式

TensorFlow Datasets 是一个集成于 TensorFlow 的数据集加载工具，旨在为研究者提供便捷的数据集构建途径。该工具通过封装大量公开数据集，使用户能够以 tf.data.Datasets 的形式直接调用。其构建方式是通过 `DatasetBuilder` 类及其子类来实现数据集的下载、准备和加载过程，`tfds.load` 函数则作为便捷封装，简化了数据集的使用流程。

特点

TensorFlow Datasets 拥有以下几个显著特点：首先，它支持广泛的数据集，涵盖了从图像到文本等多种类型；其次，它易于集成，无缝对接 TensorFlow 的数据处理流程；再次，它提供了灵活的数据处理选项，如数据集的打乱、批处理和预取等；最后，它支持将数据集转换为 NumPy 数组，方便用户进行后续处理。

使用方法

使用 TensorFlow Datasets 非常直观，用户仅需通过 `tfds.load` 函数即可加载数据集，并利用 TensorFlow 的数据管道构建方法如 `.shuffle()`, `.batch()`, `.prefetch()` 等来准备数据。此外，用户还可以通过 `tfds.as_numpy` 将数据集转换为 NumPy 数组形式，以适应不同的模型组件需求。

背景与挑战

背景概述

TensorFlow Datasets，简称TFDS，是由TensorFlow团队开发的一个开源库，旨在为研究人员和开发者提供便捷的方式来加载和预处理公共数据集。该库创建于2018年，由Google的AI团队负责维护。TFDS支持多种数据格式，并与TensorFlow框架无缝集成，极大地简化了机器学习项目中的数据准备流程。TFDS提供了丰富多样的数据集，包括但不限于MNIST、CIFAR-10、ImageNet等，这些数据集在计算机视觉领域具有广泛的应用和影响力。TFDS的出现降低了数据集获取和处理的门槛，促进了机器学习研究的普及和深入。

当前挑战

尽管TensorFlow Datasets为用户提供了极大的便利，但在使用过程中仍面临一些挑战。首先，数据集的多样性和规模不断增长，这要求TFDS在维护和更新时需保证高效性和稳定性。其次，不同数据集的预处理和加载方式可能存在差异，这给用户带来了学习和使用的难度。此外，数据集的版权和许可问题也是TFDS需要关注的重要挑战，确保用户合法使用数据集是维护TFDS可持续发展的关键。最后，随着机器学习领域的发展，如何整合新兴的数据集和满足用户个性化需求，也是TFDS需要解决的问题。

常用场景

经典使用场景

TensorFlow Datasets作为TensorFlow的子项目，旨在为研究者和开发者提供便捷的数据集加载和预处理工具。其经典使用场景在于，通过封装大量公共数据集，使得用户能够轻松地将数据集集成到TensorFlow的工作流程中，进而简化机器学习模型的训练和评估过程。

实际应用

在实际应用中，TensorFlow Datasets被广泛用于各类机器学习项目，例如图像识别、自然语言处理和音频分析等。它支持多种常见的数据格式，并且能够与TensorFlow的高效数据处理管道无缝集成，为深度学习模型的开发和部署提供了强大的数据支持。

衍生相关工作

TensorFlow Datasets的推出促进了大量深度学习相关工作的开展。例如，研究者基于该数据集库开发了新的模型训练策略、提出了改进的数据增强方法，并在各类机器学习竞赛和学术会议中取得了显著成果。此外，它也推动了数据集文档和元信息标准化工作的进展。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集