TensorFlow Datasets

github2020-02-25 更新2024-05-31 收录

下载链接：

https://github.com/captain-pool/datasets

下载链接

链接失效反馈

官方服务：

资源简介：

TensorFlow Datasets 提供多种公共数据集，作为 `tf.data.Datasets` 使用。

TensorFlow 数据集提供多样化的公共数据集，可供作为 `tf.data.Datasets` 进行使用。

创建时间：

2020-02-25

原始信息汇总

数据集概述

数据集名称: TensorFlow Datasets

数据集提供方式: 作为tf.data.Datasets提供多种公共数据集。

数据集列表: TensorFlow Datasets 列表

数据集使用示例: python import tensorflow_datasets as tfds import tensorflow as tf

查看可用数据集

print(tfds.list_builders())

加载数据集

ds_train = tfds.load(name="mnist", split="train", shuffle_files=True)

构建输入管道

ds_train = ds_train.shuffle(1000).batch(128).prefetch(10) for features in ds_train.take(1): image, label = features["image"], features["label"]

数据集构建器:

所有数据集实现为tfds.core.DatasetBuilder的子类。
使用tfds.builder获取DatasetBuilder实例，控制builder.download_and_prepare()和builder.as_dataset()。
使用tfds.load作为便捷包装，直接返回tf.data.Dataset。

数据集信息示例:

tfds.core.DatasetInfo( name=mnist, version=1.0.0, description=The MNIST database of handwritten digits., homepage=http://yann.lecun.com/exdb/mnist/, features=FeaturesDict({ image: Image(shape=(28, 28, 1), dtype=tf.uint8), label: ClassLabel(shape=(), dtype=tf.int64, num_classes=10) }, total_num_examples=70000, splits={ test: <tfds.core.SplitInfo num_examples=10000>, train: <tfds.core.SplitInfo num_examples=60000> }, supervised_keys=(image, label), citation=""" @article{lecun2010mnist, title={MNIST handwritten digit database}, author={LeCun, Yann and Cortes, Corinna and Burges, CJ}, journal={ATT Labs [Online]. Available: http://yann. lecun. com/exdb/mnist}, volume={2}, year={2010} } """, )

NumPy使用:

使用tfds.as_numpy从tf.data.Dataset返回生成器，生成NumPy数组记录。
可与batch_size=-1结合使用，从返回的tf.Tensor对象获取完整数据集的NumPy数组。

引用:

@misc{TFDS, title = {{TensorFlow Datasets}, A collection of ready-to-use datasets}, howpublished = {url{https://www.tensorflow.org/datasets}}, }

数据集添加:

通过指南添加数据集。
通过GitHub问题请求数据集。

搜集汇总

数据集介绍

构建方式

TensorFlow Datasets作为TensorFlow的子项目，其构建方式是通过收集和整理多种公开数据集，以`tf.data.Datasets`的形式提供。用户可以通过继承`tfds.core.DatasetBuilder`类，实现数据集的下载、准备和构建过程，进而形成可供TensorFlow模型训练和测试的`tf.data.Dataset`对象。

特点

该数据集的特点在于其覆盖范围广泛，包含了多种类型的公共数据集，如图片、文本和音频等。它支持数据集版本控制，确保数据集的一致性和可重复性。此外，TensorFlow Datasets提供了便捷的API，如`splits`和`slicing API`，以实现对数据集的灵活切片和子集选取。同时，它也支持将数据集转换为NumPy数组，便于用户在不同的模型组件中使用。

使用方法

使用TensorFlow Datasets首先需要安装tensorflow-datasets库，并通过`tfds.load`函数加载所需的数据集。用户可以根据需要设置数据集的split（训练集、测试集等），并对数据集进行打乱、批处理和预取等操作以构建输入管道。对于需要NumPy数组形式数据集的场景，可以使用`tfds.as_numpy`函数进行转换。在使用时，还需确保遵循数据集的许可协议。

背景与挑战

背景概述

TensorFlow Datasets是由TensorFlow团队开发的一个开源库，旨在为研究人员和开发者提供便捷的方式来访问和使用大量公共数据集。自发布以来，它极大地推动了深度学习领域的实证研究，使得构建和测试模型变得更加高效。该数据集创建于近年来，主要研究人员来自TensorFlow社区，核心研究问题是提供统一的数据集接口，以便于在TensorFlow环境中处理多样化的数据格式。TensorFlow Datasets对相关领域的影响力体现在其广泛的应用性和社区驱动的数据集持续增长上，它为各种机器学习任务，如图像识别、自然语言处理等，提供了丰富的数据资源。

当前挑战

尽管TensorFlow Datasets为研究社区提供了极大的便利，但其面临的挑战也不容忽视。首先，随着数据集种类的增加，维护和更新这些数据集的挑战日益增长。其次，数据集的多样性和规模带来了处理和存储方面的挑战。此外，数据集的版权和许可问题也是使用过程中需要关注的重点。最后，确保数据集的质量和公平性，避免偏见和误导性结果的产生，是当前和未来都需要不断努力的方向。

常用场景

经典使用场景

TensorFlow Datasets作为TensorFlow的官方数据集库，其经典使用场景在于为深度学习模型训练提供标准化的数据集接口。用户可以方便地加载预训练模型所需的数据集，例如MNIST、CIFAR-10等，通过其提供的tf.data.Dataset对象构建高效的数据输入管道，从而简化模型训练流程。

衍生相关工作

基于TensorFlow Datasets，衍生出了许多相关的经典工作，包括对数据集的创新性使用、针对特定任务的数据增强方法，以及结合最新深度学习技术的模型架构研究。这些工作不仅推动了机器学习领域的学术进展，也为实际应用提供了强有力的技术支撑。

数据集最近研究