TensorFlow Datasets

github2020-05-12 更新2024-05-31 收录

下载链接：

https://github.com/reddyprasade/datasets

下载链接

链接失效反馈

官方服务：

资源简介：

TensorFlow数据集提供多种公共数据集，作为`tf.data.Datasets`使用。

TensorFlow数据集涵盖了丰富的公共数据集，可供用户以`tf.data.Datasets`的形式进行调用和应用。

创建时间：

2020-04-23

原始信息汇总

数据集概述

TensorFlow Datasets（TFDS）是一个提供多种公共数据集的库，这些数据集可以直接作为tf.data.Datasets使用。

数据集列表

数据集列表

数据集使用示例

MNIST数据集：
- 加载与处理： python import tensorflow_datasets as tfds import tensorflow as tf
  
  ds_train = tfds.load(mnist, split=train, shuffle_files=True) ds_train = ds_train.shuffle(1000).batch(128).prefetch(10)
- 数据集信息：
  
  tfds.core.DatasetInfo( name=mnist, version=1.0.0, description=The MNIST database of handwritten digits., homepage=http://yann.lecun.com/exdb/mnist/, features=FeaturesDict({ image: Image(shape=(28, 28, 1), dtype=tf.uint8), label: ClassLabel(shape=(), dtype=tf.int64, num_classes=10) }, total_num_examples=70000, splits={ test: <tfds.core.SplitInfo num_examples=10000>, train: <tfds.core.SplitInfo num_examples=60000> }, supervised_keys=(image, label), citation=""" @article{lecun2010mnist, title={MNIST handwritten digit database}, author={LeCun, Yann and Cortes, Corinna and Burges, CJ}, journal={ATT Labs [Online]. Available: http://yann.lecun.com/exdb/mnist}, volume={2}, year={2010} } """, )

数据集构建与使用

DatasetBuilder：
- 数据集构建器使用示例： python import tensorflow_datasets as tfds
  
  mnist_builder = tfds.builder(mnist) mnist_builder.download_and_prepare() ds = mnist_builder.as_dataset(split=train) info = mnist_builder.info

NumPy使用

tfds.as_numpy：
- 使用示例： python train_ds = tfds.load("mnist", split="train") train_ds = train_ds.shuffle(1024).batch(128).repeat(5).prefetch(10) for example in tfds.as_numpy(train_ds): numpy_images, numpy_labels = example["image"], example["label"]

数据集引用

引用格式：

@misc{TFDS, title = {{TensorFlow Datasets}, A collection of ready-to-use datasets}, howpublished = {url{https://www.tensorflow.org/datasets}}, }

数据集请求与贡献

添加数据集指南：添加数据集
数据集请求：数据集请求GitHub问题

免责声明

使用数据集前需确认数据集的使用许可和版权信息。
数据集所有者可更新数据集信息或请求移除数据集。

搜集汇总

数据集介绍

构建方式

TensorFlow Datasets 是一个基于 TensorFlow 的数据集加载库，它通过继承和扩展 TensorFlow 的内置 `tf.data` API，实现了对多种公开数据集的便捷访问和高效处理。该库的构建方式主要依赖于将数据集封装为 `tfds.core.DatasetBuilder` 的子类，通过定义数据集的结构、下载、预处理和转换为 TensorFlow 数据集对象的过程，从而为用户提供了一系列预先构建好的数据集实例。

使用方法

使用 TensorFlow Datasets 首先需要通过 `pip` 安装库，然后可以使用 `tfds.load` 函数直接加载所需数据集，或通过 `tfds.builder` 获取 `DatasetBuilder` 实例进行更细致的操作。加载的数据集可以通过 TensorFlow 的 `tf.data.Dataset` API 进行进一步的处理，如打乱、批处理、预取等。对于需要 NumPy 数组形式数据的用户，可以使用 `tfds.as_numpy` 函数。此外，用户还可以根据指南添加新的数据集，或通过 GitHub 提出数据集请求。

背景与挑战

背景概述

TensorFlow Datasets，简称TFDS，是由Google主导开发的开源机器学习数据集集合。该数据集创建于2018年，主要研究人员来自Google Brain团队。TFDS的核心目标是提供一系列预先处理好的、易于使用的公共数据集，以方便机器学习研究者和开发者构建和训练模型。TFDS涵盖了从图像、文本到音频等多种类型的数据集，其数据集版本控制、数据切片、数据解码等功能大大简化了数据预处理流程，对机器学习领域的发展产生了重要影响。

当前挑战

TensorFlow Datasets面临的挑战主要包括：1）数据集的多样性和质量保证，随着数据集数量的增加，确保每个数据集的质量和适用性成为一项挑战；2）数据集的更新和维护，随着领域的发展，数据集需要定期更新以保持其前沿性和实用性；3）数据集的存储和访问效率，大规模数据集的存储和快速访问对数据集的性能提出了挑战。此外，数据集的版权和许可问题也是使用过程中需要注意的挑战之一。

常用场景

经典使用场景

TensorFlow Datasets作为TensorFlow的子库，其经典使用场景在于为机器学习研究者和开发者提供便捷、高效的数据加载和预处理工具。用户可以通过简单的API调用，获得结构化的数据集，并直接构建高效的数据输入管道，这对于构建和训练深度学习模型尤为重要。

解决学术问题

该数据集解决了学术研究中数据获取和预处理繁琐的问题，使得研究者能够专注于模型设计和算法优化。它支持多种数据格式，并提供版本控制、数据切片、特征解码等高级功能，极大提升了学术研究的效率和质量。

实际应用

在实际应用中，TensorFlow Datasets使得数据加载过程更加自动化和模块化，有助于快速部署机器学习项目。其支持的数据集覆盖了图像、文本、音频等多种类型，为不同领域的应用提供了丰富的数据资源。

数据集最近研究