TensorFlow Datasets

github2020-06-21 更新2024-05-31 收录

下载链接：

https://github.com/tonyfaby/datasets

下载链接

链接失效反馈

官方服务：

资源简介：

TensorFlow数据集提供了许多公共数据集作为`tf.data.Datasets`。

TensorFlow数据集囊括了众多公共数据集，并以`tf.data.Datasets`的形式提供。

创建时间：

2020-05-31

原始信息汇总

数据集概述

TensorFlow Datasets 是一个提供多种公共数据集的平台，这些数据集可以作为 tf.data.Datasets 使用。以下是关于数据集的关键信息：

数据集列表

链接: 数据集列表
内容: 提供多种公共数据集的列表。

数据集使用示例

示例: 使用 tensorflow_datasets 加载和处理数据集的示例代码。 python import tensorflow_datasets as tfds import tensorflow as tf

ds_train = tfds.load(mnist, split=train, shuffle_files=True) ds_train = ds_train.shuffle(1000).batch(128).prefetch(10)

数据集构建器 (`DatasetBuilder`)

功能: 所有数据集都实现为 tfds.core.DatasetBuilder 的子类，提供 tfds.builder 和 tfds.load 两种入口点。
示例: 如何使用 DatasetBuilder 下载和准备数据集，并构建 tf.data.Dataset。 python mnist_builder = tfds.builder(mnist) mnist_builder.download_and_prepare() ds = mnist_builder.as_dataset(split=train)

数据集特征解码

功能: 提供数据集特征解码的方法，如 tfds.decode。

数据集版本管理

功能: 支持数据集版本管理，确保数据集的更新和兼容性。

数据集存储

功能: 支持将数据集存储在 Google Cloud Storage (GCS) 上。

添加新数据集

指南: 提供添加新数据集的指南，包括使用 Beam 处理大型数据集（超过100GiB）的方法。

数据集API文档

链接: API文档

数据集引用

引用: 当使用 tensorflow-datasets 进行研究时，应包含以下引用。

@misc{TFDS, title = {{TensorFlow Datasets}, A collection of ready-to-use datasets}, howpublished = {url{https://www.tensorflow.org/datasets}}, }

数据集请求

请求方式: 通过 GitHub 问题提交数据集请求。

免责声明

内容: 强调数据集的使用需遵守相应许可，数据集的质量和公平性不由平台保证。

搜集汇总

数据集介绍

构建方式

TensorFlow Datasets的构建方式主要依赖于`tf.data.Dataset`这一高效的数据管道库。通过将各类公开数据集封装为`tf.data.Dataset`对象，TensorFlow Datasets为用户提供了统一且高效的接口。数据集的具体实现通过`tfds.core.DatasetBuilder`类完成，开发者可以通过`tfds.builder`获取数据集构建器实例，进而控制数据集的下载、预处理及加载过程。此外，TensorFlow Datasets支持通过`tfds.load`方法直接加载数据集，简化了数据获取的流程。

特点

TensorFlow Datasets的特点在于其广泛的数据集覆盖范围与高效的加载机制。该库集成了众多经典数据集，如MNIST、CIFAR等，涵盖了图像、文本、音频等多个领域。每个数据集均提供了详细的元信息，包括数据集的版本、描述、特征结构等，便于用户快速了解数据集的基本情况。此外，TensorFlow Datasets支持数据集的版本控制、特征解码以及高性能的数据切片操作，能够满足不同场景下的数据处理需求。

使用方法

使用TensorFlow Datasets时，用户可以通过简单的Python代码加载数据集。首先，通过`pip install tensorflow-datasets`安装库，随后使用`tfds.load`方法加载所需数据集。加载后的数据集可以直接用于构建输入管道，支持数据洗牌、批处理及预取等操作。对于需要NumPy数组的场景，用户可以使用`tfds.as_numpy`方法将数据集转换为NumPy格式。此外，TensorFlow Datasets提供了详细的API文档与示例代码，帮助用户快速上手并应用于实际项目中。

背景与挑战

背景概述

TensorFlow Datasets（TFDS）是由Google的TensorFlow团队开发的一个开源数据集库，旨在为机器学习和深度学习研究提供高质量、标准化的数据集。该库首次发布于2018年，迅速成为学术界和工业界广泛使用的工具之一。TFDS的核心目标是通过提供易于访问和使用的数据集，加速机器学习模型的开发与评估。其数据集涵盖了图像分类、自然语言处理、音频处理等多个领域，支持研究人员和开发者快速构建和测试模型。通过集成`tf.data` API，TFDS能够高效地处理大规模数据集，显著提升了数据加载和预处理的速度。该库的推出不仅推动了机器学习领域的标准化进程，还为全球研究社区提供了丰富的资源支持。

当前挑战

TensorFlow Datasets在解决机器学习数据标准化问题的同时，也面临诸多挑战。首先，数据集的多样性和复杂性使得数据预处理和格式转换成为一大难题，尤其是在处理非结构化数据时，如何确保数据的一致性和完整性至关重要。其次，随着数据集规模的不断增长，存储和计算资源的消耗显著增加，这对数据加载和处理的效率提出了更高要求。此外，数据集的版权和许可问题也是TFDS需要谨慎处理的挑战之一，确保数据集的合法使用是其长期发展的关键。最后，如何持续更新和维护数据集，确保其与最新研究需求保持同步，也是TFDS团队面临的重要任务。

常用场景

经典使用场景

TensorFlow Datasets 在机器学习和深度学习领域中被广泛用于模型训练和评估。其经典使用场景包括图像分类、自然语言处理和时间序列分析等任务。例如，MNIST 数据集常用于手写数字识别模型的训练，而 IMDb 数据集则用于情感分析任务。通过提供标准化的数据加载和处理流程，TensorFlow Datasets 极大地简化了数据预处理步骤，使研究人员能够专注于模型设计和优化。

解决学术问题

TensorFlow Datasets 解决了学术研究中数据获取和预处理的难题。通过提供大量公开数据集，研究人员无需花费大量时间在数据收集和清洗上，从而能够更快地开展实验。此外，数据集的标准格式和统一的 API 接口使得不同研究之间的结果更具可比性，推动了机器学习领域的进步。

衍生相关工作

TensorFlow Datasets 的推出催生了许多相关的研究工作。例如，基于其提供的 CIFAR-10 数据集，研究人员开发了多种高效的图像分类模型；基于 IMDb 数据集，许多自然语言处理模型得以验证和改进。此外，TensorFlow Datasets 的开源特性也促进了社区贡献，许多新的数据集和工具被不断添加到生态系统中，进一步丰富了机器学习研究的资源。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集