TensorFlow Datasets

github2020-03-18 更新2024-05-31 收录

下载链接：

https://github.com/maaz-bin-asad/datasets

下载链接

链接失效反馈

官方服务：

资源简介：

TensorFlow数据集提供多种公共数据集，作为`tf.data.Datasets`使用。

TensorFlow数据集囊括了多种公共数据集，可供作为`tf.data.Datasets`进行应用。

创建时间：

2020-03-18

原始信息汇总

数据集概述

数据集列表

链接: TensorFlow Datasets 数据集列表

数据集使用

示例: 使用 tensorflow_datasets 加载和处理数据集，如 mnist。
代码示例: python import tensorflow_datasets as tfds import tensorflow as tf

ds_train = tfds.load(mnist, split=train, shuffle_files=True) ds_train = ds_train.shuffle(1000).batch(128).prefetch(10)

数据集构建器 (`DatasetBuilder`)

功能: 所有数据集通过 tfds.core.DatasetBuilder 实现，提供 download_and_prepare 和 as_dataset 方法。
代码示例: python import tensorflow_datasets as tfds

mnist_builder = tfds.builder(mnist) mnist_builder.download_and_prepare() ds = mnist_builder.as_dataset(split=train) info = mnist_builder.info

数据集信息

示例: mnist 数据集信息

tfds.core.DatasetInfo( name=mnist, version=1.0.0, description=The MNIST database of handwritten digits., homepage=http://yann.lecun.com/exdb/mnist/, features=FeaturesDict({ image: Image(shape=(28, 28, 1), dtype=tf.uint8), label: ClassLabel(shape=(), dtype=tf.int64, num_classes=10) }, total_num_examples=70000, splits={ test: <tfds.core.SplitInfo num_examples=10000>, train: <tfds.core.SplitInfo num_examples=60000> }, supervised_keys=(image, label), citation=""" @article{lecun2010mnist, title={MNIST handwritten digit database}, author={LeCun, Yann and Cortes, Corinna and Burges, CJ}, journal={ATT Labs [Online]. Available: http://yann. lecun. com/exdb/mnist}, volume={2}, year={2010} } """, )

NumPy 使用

功能: 使用 tfds.as_numpy 将 tf.data.Dataset 转换为 NumPy 数组。
代码示例: python train_ds = tfds.load("mnist", split="train") train_ds = train_ds.shuffle(1024).batch(128).repeat(5).prefetch(10) for example in tfds.as_numpy(train_ds): numpy_images, numpy_labels = example["image"], example["label"]

数据集引用

引用格式:

@misc{TFDS, title = {{TensorFlow Datasets}, A collection of ready-to-use datasets}, howpublished = {url{https://www.tensorflow.org/datasets}}, }

添加数据集

指南链接: 添加数据集指南
请求数据集: 通过 GitHub 提交数据集请求。

搜集汇总

数据集介绍

构建方式

TensorFlow Datasets 是基于 TensorFlow 框架构建的一个高效数据集加载与预处理工具，它通过继承和扩展 TensorFlow 的内置 `tf.data` API，实现了对多种公开数据集的便捷访问和处理。该工具通过自动下载、解压、预处理的流程，将数据集封装成 `tf.data.Dataset` 对象，以供模型训练和评估使用。

特点

该数据集具备以下显著特点：支持多种公开数据集的加载；提供了灵活的数据集切片和分割API，方便用户对数据集进行子集选择；内置了性能优化建议，帮助用户构建高效的数据输入管道；支持数据集版本控制，确保数据集的一致性和可复现性；同时，提供了特征解码功能，使得复杂数据类型的处理变得简单。

使用方法

用户可以通过 `tfds.load` 函数直接加载所需数据集，该函数隐藏了数据下载和准备的细节，返回可直接用于模型训练的 `tf.data.Dataset` 对象。此外，用户还可以使用 `tfds.builder` 获取 `DatasetBuilder` 实例，以更细粒度地控制数据集的下载、准备和转换过程。对于需要 NumPy 数组的场景，`tfds.as_numpy` 函数提供了从 `tf.data.Dataset` 到 NumPy 数组的转换功能。

背景与挑战

背景概述

TensorFlow Datasets是由TensorFlow团队开发的一个开源库，旨在为研究人员和开发者提供方便快捷的方式来访问和使用公共数据集。自TensorFlow 1.5版本起，该库作为内置库的一部分，提供了多种数据集，这些数据集被封装为`tf.data.Datasets`格式，以便于在TensorFlow中构建高效的数据管道。TensorFlow Datasets的创建，极大地简化了数据预处理流程，使得研究人员能够更加专注于模型训练和实验设计。该数据集自推出以来，在机器学习和深度学习领域产生了广泛的影响，成为了数据集整合与管理的典范。

当前挑战

尽管TensorFlow Datasets提供了丰富的数据集和便捷的接口，但在使用过程中仍然面临一些挑战。首先，数据集的多样性和规模不断增长，如何高效管理和更新这些数据集成为了一个挑战。其次，不同数据集的特性和格式各异，需要开发相应的解码器和预处理方法，这增加了数据集集成的复杂性。此外，数据集的版本控制和数据许可问题也给数据集的维护和使用带来了挑战。在使用特定数据集时，用户还需自行确保遵守相关数据集的许可协议，避免潜在的版权问题。

常用场景

经典使用场景

TensorFlow Datasets作为TensorFlow的子模块，提供了大量经过预处理的公共数据集，以tf.data.Datasets的形式呈现，其经典使用场景在于为机器学习模型训练提供高效的数据加载和预处理。用户可通过简单的API调用，如tfds.load，快速加载所需数据集，进而构建数据管道，实现数据的批量处理、打乱、预取等操作，以满足模型训练的需求。

解决学术问题

该数据集解决了学术研究中数据获取与预处理环节的难题，它为研究人员提供了标准化的数据接口，使得研究者能够专注于模型设计与算法实现，而无需耗费大量时间在数据准备上。此外，数据集的标准化处理还有助于减少实验之间的不一致性，提高学术研究的可重复性。

衍生相关工作

基于TensorFlow Datasets，衍生出了一系列相关的工作，包括数据集的扩展、性能优化、以及针对特定应用场景的定制化数据加载策略。这些工作不仅丰富了TensorFlow生态系统，也为机器学习领域的研究与实践提供了有力的工具支持。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集