TensorFlow Datasets

github2020-08-20 更新2024-05-31 收录

下载链接：

https://github.com/jason-zl190/datasets

下载链接

链接失效反馈

官方服务：

资源简介：

TensorFlow Datasets 提供多种公共数据集作为 `tf.data.Datasets`，方便与TensorFlow配合使用。

TensorFlow 数据集提供了多种公共数据集，以 `tf.data.Datasets` 的形式呈现，便于与 TensorFlow 集成使用。

创建时间：

2019-08-12

原始信息汇总

数据集概述

数据集列表

访问链接: TensorFlow Datasets 数据集列表

数据集使用示例

示例代码: python import tensorflow_datasets as tfds import tensorflow as tf

ds_train = tfds.load(mnist, split=train, shuffle_files=True) ds_train = ds_train.shuffle(1000).batch(128).prefetch(10) for features in ds_train.take(1): image, label = features[image], features[label]

数据集构建器 (`DatasetBuilder`)

功能: 所有数据集通过 tfds.core.DatasetBuilder 实现，提供 download_and_prepare() 和 as_dataset() 方法。
示例代码: python import tensorflow_datasets as tfds

mnist_builder = tfds.builder(mnist) mnist_builder.download_and_prepare() ds = mnist_builder.as_dataset(split=train) info = mnist_builder.info print(info)

数据集信息 (`DatasetInfo`)

示例内容: python tfds.core.DatasetInfo( name=mnist, version=3.0.1, description=The MNIST database of handwritten digits., homepage=http://yann.lecun.com/exdb/mnist/, features=FeaturesDict({ image: Image(shape=(28, 28, 1), dtype=tf.uint8), label: ClassLabel(shape=(), dtype=tf.int64, num_classes=10), }), total_num_examples=70000, splits={ test: 10000, train: 60000, }, supervised_keys=(image, label), citation="""@article{lecun2010mnist, title={MNIST handwritten digit database}, author={LeCun, Yann and Cortes, Corinna and Burges, CJ}, journal={ATT Labs [Online]. Available: http://yann.lecun.com/exdb/mnist}, volume={2}, year={2010} }""", )

NumPy 使用 (`tfds.as_numpy`)

功能: 将 tf.data.Dataset 转换为 NumPy 数组生成器。
示例代码: python train_ds = tfds.load("mnist", split="train") train_ds = train_ds.shuffle(1024).batch(128).repeat(5).prefetch(10) for example in tfds.as_numpy(train_ds): numpy_images, numpy_labels = example["image"], example["label"]

引用信息

引用格式:

@misc{TFDS, title = {{TensorFlow Datasets}, A collection of ready-to-use datasets}, howpublished = {url{https://www.tensorflow.org/datasets}}, }

数据集请求

请求方式: 通过 GitHub 问题提交数据集请求。

搜集汇总

数据集介绍

构建方式

TensorFlow Datasets（TFDS）通过集成多种公开数据集，并利用TensorFlow内置的`tf.data`库构建高效的数据管道。每个数据集均以`tf.data.Dataset`的形式提供，支持用户通过简单的API调用进行数据加载与预处理。数据集的构建过程包括数据下载、格式转换及分片处理，确保数据的高效访问与使用。此外，TFDS支持用户自定义数据集的添加，通过`DatasetBuilder`类实现数据集的灵活扩展与版本管理。

特点

TensorFlow Datasets以其丰富的数据集种类和高效的数据处理能力著称。数据集涵盖图像、文本、音频等多个领域，且每个数据集均提供详细的元信息，包括数据格式、类别标签及引用信息。TFDS支持数据分片与切片操作，便于用户按需加载部分数据。同时，数据集版本管理功能确保实验的可重复性。此外，TFDS与TensorFlow生态无缝集成，支持GPU加速与分布式训练，极大提升了数据处理的效率。

使用方法

使用TensorFlow Datasets时，用户可通过`tfds.load`函数快速加载数据集，并通过`tf.data.Dataset`接口构建数据管道。数据集支持分片加载、批量处理及数据增强等操作，适用于深度学习模型的训练与评估。对于需要NumPy数组的用户，TFDS提供了`tfds.as_numpy`接口，将数据集转换为NumPy格式。此外，用户可通过`DatasetBuilder`类自定义数据集加载流程，获取数据集的详细信息，如类别标签、数据分布等。TFDS还提供了详细的文档与示例，帮助用户快速上手。

背景与挑战

背景概述

TensorFlow Datasets（TFDS）是由Google主导开发的一个开源项目，旨在为机器学习和深度学习研究提供丰富且标准化的数据集。该项目自2018年发布以来，迅速成为学术界和工业界的重要资源。TFDS的核心目标是通过提供易于使用的`tf.data.Dataset`接口，简化数据加载和预处理流程，从而加速模型开发与实验。其数据集涵盖图像、文本、音频等多个领域，广泛应用于计算机视觉、自然语言处理和语音识别等研究方向。TFDS的推出不仅降低了数据获取的门槛，还通过版本控制和标准化特征描述，提升了研究的可重复性和透明度。

当前挑战

尽管TensorFlow Datasets在数据集的多样性和易用性方面取得了显著进展，但仍面临诸多挑战。首先，数据集的规模和质量参差不齐，部分数据集存在标注不准确或数据分布不均的问题，这可能影响模型的训练效果。其次，数据集的构建和更新需要大量人力与计算资源，尤其是在处理大规模数据集时，数据下载、存储和预处理的时间成本较高。此外，TFDS依赖于TensorFlow生态系统，对于使用其他深度学习框架的研究者来说，可能存在一定的兼容性问题。最后，数据集的版权和许可问题也需要谨慎处理，以确保合法使用和分发。

常用场景

经典使用场景

TensorFlow Datasets 在机器学习和深度学习领域中，广泛应用于模型训练与评估。通过提供标准化的数据加载接口，研究者可以快速获取并处理如MNIST、CIFAR-10等经典数据集，极大地简化了数据预处理流程。该数据集库支持多种数据格式和高效的数据管道构建，使得研究者能够专注于模型设计与优化，而非数据处理的繁琐细节。

实际应用

在实际应用中，TensorFlow Datasets 被广泛用于图像分类、自然语言处理、语音识别等任务。例如，在图像分类任务中，研究者可以使用该数据集库快速加载并预处理ImageNet数据集，进而训练和评估深度学习模型。其高效的数据管道和灵活的API设计，使得该库成为工业界和学术界进行大规模数据处理的理想工具。

衍生相关工作

TensorFlow Datasets 的推出催生了许多相关研究工作。例如，基于该数据集库，研究者开发了多种数据增强技术和自动化数据预处理工具，进一步提升了模型的泛化能力。此外，该库还为开源社区提供了丰富的数据集资源，促进了数据共享和协作研究，推动了机器学习领域的开放科学发展。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集