TensorFlow Datasets

github2022-09-17 更新2024-05-31 收录

下载链接：

https://github.com/lmoroney/datasets

下载链接

链接失效反馈

官方服务：

资源简介：

TensorFlow数据集提供多种公共数据集作为`tf.data.Datasets`。

TensorFlow数据集提供了一系列公共数据集，这些数据集均以`tf.data.Datasets`的形式呈现。

创建时间：

2020-04-17

原始信息汇总

数据集概述

数据集列表

链接: TensorFlow Datasets 数据集列表

数据集使用示例

示例: 使用Keras的端到端示例

数据集特性与性能

使用分割和切片API: 详情
性能建议: 详情
数据集版本控制: 详情
特征解码: 详情
在GCS存储数据集: 详情

添加数据集

添加数据集指南: 详情
使用Beam添加大型数据集: 详情

API文档

API文档链接: TensorFlow Datasets API文档

数据集安装与使用

安装命令: sh pip install tensorflow-datasets pip install tensorflow
使用示例: python import tensorflow_datasets as tfds import tensorflow as tf

ds_train = tfds.load(mnist, split=train, shuffle_files=True) ds_train = ds_train.shuffle(1000).batch(128).prefetch(10)

数据集构建器 (`DatasetBuilder`)

功能: 用于下载和准备数据集，以及构建数据集输入管道。
使用示例: python mnist_builder = tfds.builder(mnist) mnist_builder.download_and_prepare() ds = mnist_builder.as_dataset(split=train) info = mnist_builder.info

NumPy使用

功能: 将tf.data.Dataset转换为NumPy数组。
使用示例: python train_ds = tfds.load("mnist", split="train") train_ds = train_ds.shuffle(1024).batch(128).repeat(5).prefetch(10) for example in tfds.as_numpy(train_ds): numpy_images, numpy_labels = example["image"], example["label"]

引用

引用格式:

@misc{TFDS, title = {{TensorFlow Datasets}, A collection of ready-to-use datasets}, howpublished = {url{https://www.tensorflow.org/datasets}}, }

请求数据集

请求方式: 通过GitHub issue提交数据集请求。

搜集汇总

数据集介绍

构建方式

TensorFlow Datasets（TFDS）的构建方式基于`tf.data`库，该库是TensorFlow内置的高效数据管道构建工具。TFDS通过`tf.data`实现了数据集的加载与预处理，用户可以通过简单的API调用获取数据集，并将其转换为`tf.data.Dataset`格式。数据集的具体实现通过`tfds.core.DatasetBuilder`类完成，开发者可以通过`tfds.builder`获取数据集构建器实例，进而控制数据集的下载、预处理及转换为`tf.data.Dataset`的过程。此外，TFDS支持通过Beam处理大规模数据集（超过100GiB），并提供了版本控制、特征解码等功能，确保数据集的灵活性与可扩展性。

特点

TensorFlow Datasets的特点在于其丰富的公共数据集资源与高效的数据处理能力。该库提供了多种预定义的数据集，涵盖图像、文本、音频等多个领域，且每个数据集均经过标准化处理，确保数据格式的一致性。TFDS支持数据集的版本控制与特征解码，用户可以根据需求灵活选择数据集的分割方式与特征提取方法。此外，TFDS与TensorFlow生态深度集成，支持Eager模式与Graph模式，能够无缝衔接TensorFlow模型训练流程。数据集的信息（如特征描述、类别标签等）可通过`DatasetInfo`对象获取，极大地方便了数据探索与分析。

使用方法

使用TensorFlow Datasets的方法极为简便。用户只需通过`pip install tensorflow-datasets`安装库，并导入`tensorflow_datasets`模块即可开始使用。通过`tfds.load`函数，用户可以快速加载指定数据集，并将其转换为`tf.data.Dataset`格式。加载后的数据集可通过`shuffle`、`batch`、`prefetch`等操作构建高效的数据输入管道。对于需要NumPy数组的用户，TFDS提供了`tfds.as_numpy`工具，可将`tf.data.Dataset`转换为NumPy数组生成器，便于与其他机器学习框架集成。此外，TFDS支持通过Colab进行交互式使用，用户可以在线体验数据集的加载与处理过程。

背景与挑战

背景概述

TensorFlow Datasets（TFDS）是由Google开发的一个开源项目，旨在为机器学习研究者和开发者提供丰富且高质量的公共数据集。该项目于2018年首次发布，作为TensorFlow生态系统的一部分，旨在简化数据集的获取、预处理和加载过程。TFDS的核心研究问题在于如何高效地将大规模数据集集成到机器学习工作流中，同时确保数据的可重复性和一致性。通过提供标准化的数据接口，TFDS极大地促进了深度学习模型的开发与评估，成为学术界和工业界广泛使用的工具之一。其影响力不仅体现在数据集的多样性上，还体现在对数据版本控制、特征解码和性能优化的支持上。

当前挑战

TensorFlow Datasets在解决机器学习数据集成问题时面临多重挑战。首先，数据集的多样性和规模带来了数据格式不统一的问题，如何高效地处理不同格式的数据并确保其与TensorFlow框架的兼容性是一个关键挑战。其次，大规模数据集的存储与传输对计算资源提出了较高要求，尤其是在处理超过100GiB的数据集时，如何优化数据加载和预处理流程以提升性能成为一大难题。此外，数据集的版本控制和更新机制也需要精心设计，以确保研究结果的可重复性。最后，TFDS在构建过程中还需考虑数据集的公平性和伦理问题，确保数据的使用符合负责任的人工智能实践。

常用场景

经典使用场景

TensorFlow Datasets 广泛应用于机器学习和深度学习领域，尤其是在图像识别、自然语言处理和语音识别等任务中。研究人员和开发者可以通过该数据集快速加载和预处理数据，构建高效的输入管道，从而加速模型训练和评估过程。例如，经典的MNIST数据集常用于手写数字识别任务，而CIFAR-10数据集则被广泛用于图像分类研究。

解决学术问题

TensorFlow Datasets 解决了机器学习研究中数据获取和预处理的难题。通过提供标准化的数据集和高效的数据加载工具，研究人员可以专注于模型设计和优化，而不必花费大量时间在数据准备上。此外，该数据集支持版本控制和特征解码，确保了实验的可重复性和数据的透明性，极大地推动了学术研究的进展。

衍生相关工作

TensorFlow Datasets 的推出催生了许多经典的研究工作。例如，基于该数据集的图像分类模型ResNet和EfficientNet在ImageNet竞赛中取得了显著成果。在自然语言处理领域，BERT和GPT等预训练模型也利用该数据集进行大规模语料库的训练。这些工作不仅推动了深度学习技术的发展，还为后续的研究提供了宝贵的参考和基准。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集