TensorFlow Datasets

github2019-03-04 更新2024-05-31 收录

下载链接：

https://github.com/michhaha/datasets

下载链接

链接失效反馈

官方服务：

资源简介：

TensorFlow Datasets提供了许多公共数据集作为`tf.data.Datasets`。

TensorFlow 数据集提供了一系列公共数据集，这些数据集均以 `tf.data.Datasets` 的形式呈现。

创建时间：

2019-03-04

原始信息汇总

数据集概述

数据集列表

数据集列表可在此处查看：List of datasets

数据集使用示例

数据集可通过tfds.load函数加载，例如加载MNIST数据集： python ds_train, ds_test = tfds.load(name="mnist", split=["train", "test"])
数据集可以进行预处理，如随机洗牌、批处理和预取： python ds_train = ds_train.shuffle(1000).batch(128).prefetch(10)

数据集构建器 (`DatasetBuilder`)

所有数据集都实现为DatasetBuilder的子类，可以通过字符串获取数据集构建器： python mnist_builder = tfds.builder("mnist")
数据集构建器负责下载和准备数据集，并提供数据集信息： python info = mnist_builder.info

数据集信息 (`DatasetInfo`)

数据集信息包括数据集名称、版本、描述、URL、特征、总示例数、分割信息、监督键和引用。
例如MNIST数据集的信息： python tfds.core.DatasetInfo( name=mnist, version=1.0.0, description=The MNIST database of handwritten digits., urls=[uhttp://yann.lecun.com/exdb/mnist/], features=FeaturesDict({ image: Image(shape=(28, 28, 1), dtype=tf.uint8), label: ClassLabel(shape=(), dtype=tf.int64, num_classes=10) }, total_num_examples=70000, splits={ utest: <tfds.core.SplitInfo num_examples=10000>, utrain: <tfds.core.SplitInfo num_examples=60000> }, supervised_keys=(uimage, ulabel), citation=""" @article{lecun2010mnist, title={MNIST handwritten digit database}, author={LeCun, Yann and Cortes, Corinna and Burges, CJ}, journal={ATT Labs [Online]. Available: http://yann. lecun. com/exdb/mnist}, volume={2}, year={2010} } """, )

NumPy使用 (`tfds.as_numpy`)

使用tfds.as_numpy可以将tf.data.Dataset转换为生成NumPy数组记录的生成器，便于模型组件使用。 python train_ds = tfds.load("mnist", split=tfds.Split.TRAIN) for example in tfds.as_numpy(train_ds): numpy_images, numpy_labels = example["image"], example["label"]

请求特定数据集

可以通过GitHub问题请求新数据集： Dataset request GitHub issue

免责声明

数据集的下载和使用需遵守相应数据集的许可协议，用户需自行判断是否有权使用。

搜集汇总

数据集介绍

构建方式

TensorFlow Datasets是一款集成于TensorFlow框架中的数据集加载工具，其构建方式是通过封装各类公开数据集，并使之可以直接作为`tf.data.Datasets`对象使用，进而实现了数据集的标准化和模块化。用户可通过继承`DatasetBuilder`类来创建自定义数据集构建器，进一步扩展数据集库。

特点

该数据集具备以下显著特点：支持丰富的公共数据集，易于通过TensorFlow框架进行加载和使用；提供灵活的数据集构建器，允许用户自定义数据集；兼容NumPy，支持将数据集转换为NumPy数组，便于构建高性能输入管道。

使用方法

使用TensorFlow Datasets，用户首先需要安装tensorflow-datasets库，随后可通过调用`tfds.load`函数加载所需的数据集，并根据需求对数据进行混洗、批处理等操作。此外，还可以利用`tfds.as_numpy`功能，将数据集转换为NumPy数组，以供模型组件使用。

背景与挑战

背景概述

TensorFlow Datasets，简称TFDS，是由TensorFlow团队开发的一个开源库，旨在为研究者和开发者提供便捷的公共数据集访问方式。该库创建于深度学习框架TensorFlow的发展背景下，以解决数据集获取与预处理的问题。主要研究人员为TensorFlow社区，核心研究问题是优化数据加载流程，提升数据集的可访问性和易用性。TFDS提供了多种数据集，如MNIST、CIFAR-10等，对机器学习和深度学习领域产生了广泛影响，极大地推动了相关研究的进展。

当前挑战

TensorFlow Datasets在构建过程中面临的挑战主要包括数据集的多样性和可扩展性，以及保证数据加载的高效性和稳定性。此外，还需处理不同数据集的许可和版权问题，确保用户合法使用数据。在使用过程中，研究者也面临如何高效地集成TFDS到现有工作流程中的挑战，以及如何处理大规模数据集时遇到的性能瓶颈。

常用场景

经典使用场景

TensorFlow Datasets作为TensorFlow的官方数据集工具，其经典使用场景主要在于为机器学习模型的训练和测试提供标准化的数据集。用户可以通过简单的API调用，加载如MNIST、CIFAR-10等知名数据集，进而构建数据管道，进行模型的训练与评估。

实际应用

在实际应用中，TensorFlow Datasets被广泛用于机器学习和深度学习的项目中，尤其是在图像识别、自然语言处理和语音识别等领域。它支持多种数据格式和类型，使得研究人员和开发者能够快速搭建原型，并部署到生产环境中。

衍生相关工作

TensorFlow Datasets的推出促进了大量相关工作的衍生，如数据集的扩展、改进和定制化。社区中不断有新的数据集被添加，也有研究人员基于这些数据集开发新的模型和算法，推动了机器学习领域的快速发展。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集