TensorFlow Datasets

github2020-10-13 更新2024-05-31 收录

下载链接：

https://github.com/saurabh-maurya/datasets

下载链接

链接失效反馈

官方服务：

资源简介：

TensorFlow Datasets 提供多种公共数据集，这些数据集可以作为 `tf.data.Datasets` 使用，方便与 TensorFlow、Jax 等框架集成。

TensorFlow 数据集提供了一系列公共数据集，这些数据集均可通过 `tf.data.Datasets` 进行调用，以便与 TensorFlow、Jax 等框架实现无缝集成。

创建时间：

2020-06-10

原始信息汇总

数据集概述

数据集列表

访问链接: TensorFlow Datasets 数据集列表

数据集使用示例

MNIST 数据集:
- 加载方式: python import tensorflow_datasets as tfds ds_train = tfds.load(mnist, split=train, shuffle_files=True)
- 数据处理: python ds_train = ds_train.shuffle(1000).batch(128).prefetch(10) for features in ds_train.take(1): image, label = features[image], features[label]

数据集特性

数据集构建器:
- 类: tfds.core.DatasetBuilder
- 使用方法: python mnist_builder = tfds.builder(mnist) mnist_builder.download_and_prepare() ds = mnist_builder.as_dataset(split=train) info = mnist_builder.info
- 数据集信息: python tfds.core.DatasetInfo( name=mnist, version=3.0.1, description=The MNIST database of handwritten digits., homepage=http://yann.lecun.com/exdb/mnist/, features=FeaturesDict({ image: Image(shape=(28, 28, 1), dtype=tf.uint8), label: ClassLabel(shape=(), dtype=tf.int64, num_classes=10), }), total_num_examples=70000, splits={ test: 10000, train: 60000, }, supervised_keys=(image, label), citation="""@article{lecun2010mnist, title={MNIST handwritten digit database}, author={LeCun, Yann and Cortes, Corinna and Burges, CJ}, journal={ATT Labs [Online]. Available: http://yann.lecun.com/exdb/mnist}, volume={2}, year={2010} }""", )

数据集版本与性能

版本管理: TensorFlow Datasets 数据集版本管理
性能建议: TensorFlow Datasets 性能建议

数据集引用

引用格式:

@misc{TFDS, title = {{TensorFlow Datasets}, A collection of ready-to-use datasets}, howpublished = {url{https://www.tensorflow.org/datasets}}, }

数据集贡献

添加数据集指南: TensorFlow Datasets 添加数据集指南
大型数据集添加: 使用 Beam 添加大型数据集

搜集汇总

数据集介绍

构建方式

TensorFlow Datasets（TFDS）通过`tf.data.Dataset`的形式提供了丰富的公共数据集。其构建过程依赖于`tf.data`库，该库是TensorFlow内置的高效数据管道构建工具。TFDS利用`tf.data`在加载数据集时自动构建输入管道，确保数据的高效读取与处理。此外，TFDS支持用户通过`DatasetBuilder`类自定义数据集的下载与预处理流程，进一步增强了数据集的灵活性与可扩展性。

特点

TensorFlow Datasets涵盖了广泛的机器学习任务所需的数据集，涵盖了图像、文本、音频等多个领域。每个数据集均经过标准化处理，提供了详细的元数据信息，如数据集名称、版本、描述、特征结构等。数据集的分割（如训练集、测试集）也经过精心设计，便于用户直接使用。此外，TFDS支持数据集的版本控制与特征解码，确保数据的一致性与可重复性。

使用方法

使用TensorFlow Datasets时，用户可以通过`tfds.load`函数快速加载数据集，并利用`tf.data.Dataset`的API进行数据预处理与增强。数据集的分割与切片操作可通过简单的API调用实现，支持高效的数据流水线构建。对于需要NumPy数组的用户，TFDS提供了`tfds.as_numpy`工具，将数据集转换为NumPy格式，便于与其他机器学习框架集成。此外，TFDS还支持将数据集存储于Google Cloud Storage（GCS），以应对大规模数据的需求。

背景与挑战

背景概述

TensorFlow Datasets（TFDS）是由Google主导开发的一个开源项目，旨在为机器学习和深度学习研究提供丰富且标准化的数据集。该项目自2018年推出以来，迅速成为深度学习领域的重要资源之一。TFDS通过将多种公开数据集封装为`tf.data.Dataset`格式，极大简化了数据加载和预处理的流程，使得研究人员能够更专注于模型的设计与优化。其核心研究问题在于如何高效地管理和使用大规模数据集，以支持深度学习模型的训练与评估。TFDS不仅涵盖了图像分类、自然语言处理等多个领域的数据集，还通过版本控制和特征解码等功能，确保了数据的可重复性和一致性。该项目的推出对深度学习社区产生了深远影响，推动了数据驱动的AI研究的发展。

当前挑战

TensorFlow Datasets在解决领域问题和构建过程中面临多重挑战。首先，数据集的质量和多样性是核心问题之一。尽管TFDS提供了大量数据集，但如何确保这些数据集在公平性、代表性和无偏见性方面达到高标准，仍然是一个亟待解决的问题。其次，数据集的构建过程涉及复杂的数据清洗、格式转换和特征提取，尤其是在处理大规模数据集时，如何高效地进行数据预处理和存储管理成为一大挑战。此外，TFDS需要与TensorFlow生态系统无缝集成，确保数据加载和模型训练的高效性，这对系统的兼容性和性能提出了更高要求。最后，随着数据集的不断更新和扩展，如何保持数据集的版本一致性并满足不同研究需求，也是TFDS面临的重要挑战。

常用场景

经典使用场景

TensorFlow Datasets 在机器学习和深度学习领域中，广泛应用于模型训练和评估。通过提供标准化的数据集加载接口，研究人员可以轻松地获取和处理诸如MNIST、CIFAR-10等经典数据集，从而专注于模型的设计与优化。该数据集库支持多种数据格式和预处理操作，极大地简化了数据管道的构建过程。

实际应用

在实际应用中，TensorFlow Datasets 被广泛用于图像分类、自然语言处理和语音识别等领域。例如，在医疗影像分析中，研究人员可以利用该数据集库快速加载和处理医学图像数据，加速疾病诊断模型的开发。在工业自动化中，该数据集库也为机器视觉系统的训练提供了高效的数据支持。

衍生相关工作

TensorFlow Datasets 的推出催生了许多相关的研究工作。例如，基于该数据集库的模型训练框架和工具链得到了广泛开发，进一步推动了深度学习技术的普及。此外，许多开源项目和研究论文都依赖于该数据集库提供的数据，形成了丰富的生态系统，促进了学术界和工业界的合作与创新。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集