TensorFlow Datasets

github2020-07-30 更新2024-05-31 收录

下载链接：

https://github.com/annxingyuan/datasets

下载链接

链接失效反馈

官方服务：

资源简介：

TensorFlow Datasets 提供多种公共数据集，这些数据集以 `tf.data.Datasets` 的形式准备，便于与TensorFlow和Jax等框架一起使用。

TensorFlow 数据集提供了多样化的公共数据集，这些数据集均以 `tf.data.Datasets` 的结构进行精心准备，旨在与 TensorFlow 及 Jax 等框架实现无缝对接。

创建时间：

2020-06-11

原始信息汇总

数据集概述

数据集列表

TensorFlow Datasets 提供多种公共数据集，可通过以下链接查看完整列表： List of datasets

数据集使用示例

MNIST 数据集：
- 加载与使用示例： python import tensorflow_datasets as tfds import tensorflow as tf
  
  ds_train = tfds.load(mnist, split=train, shuffle_files=True) ds_train = ds_train.shuffle(1000).batch(128).prefetch(10) for features in ds_train.take(1): image, label = features[image], features[label]
- 数据集信息： python tfds.core.DatasetInfo( name=mnist, version=3.0.1, description=The MNIST database of handwritten digits., homepage=http://yann.lecun.com/exdb/mnist/, features=FeaturesDict({ image: Image(shape=(28, 28, 1), dtype=tf.uint8), label: ClassLabel(shape=(), dtype=tf.int64, num_classes=10), }), total_num_examples=70000, splits={ test: 10000, train: 60000, }, supervised_keys=(image, label), citation="""@article{lecun2010mnist, title={MNIST handwritten digit database}, author={LeCun, Yann and Cortes, Corinna and Burges, CJ}, journal={ATT Labs [Online]. Available: http://yann.lecun.com/exdb/mnist}, volume={2}, year={2010} }""", )

数据集构建器 (`DatasetBuilder`)

数据集构建器用于控制数据集的下载和准备过程，以及构建 tf.data.Dataset。
使用示例： python import tensorflow_datasets as tfds

mnist_builder = tfds.builder(mnist) mnist_builder.download_and_prepare() ds = mnist_builder.as_dataset(split=train) info = mnist_builder.info print(info)

NumPy 使用

使用 tfds.as_numpy 可以将 tf.data.Dataset 转换为 NumPy 数组，方便在模型中使用。
使用示例： python train_ds = tfds.load("mnist", split="train") train_ds = train_ds.shuffle(1024).batch(128).repeat(5).prefetch(10) for example in tfds.as_numpy(train_ds): numpy_images, numpy_labels = example["image"], example["label"]

引用信息

使用 tensorflow-datasets 时的引用格式：

@misc{TFDS, title = {{TensorFlow Datasets}, A collection of ready-to-use datasets}, howpublished = {url{https://www.tensorflow.org/datasets}}, }

请求新数据集

可以通过 GitHub 提交数据集请求，并参与现有请求的投票。
请求链接：Dataset request GitHub issue

搜集汇总

数据集介绍

构建方式

TensorFlow Datasets（TFDS）通过集成多种公开数据集，并将其封装为`tf.data.Datasets`格式，为机器学习研究提供了便捷的数据访问方式。该数据集的构建基于`tf.data`库，能够高效地处理数据加载与预处理流程。用户可以通过`tfds.builder`或`tfds.load`接口，灵活地下载、准备和加载数据集。此外，TFDS支持自定义数据集的添加，开发者可以按照指南将新数据集集成到该框架中，进一步扩展其应用范围。

使用方法

使用TensorFlow Datasets时，用户可以通过简单的Python代码加载数据集。例如，使用`tfds.load`函数可以直接获取`tf.data.Dataset`对象，并通过`shuffle`、`batch`等方法构建数据管道。TFDS还提供了`tfds.as_numpy`工具，方便用户将数据集转换为NumPy数组，以便与其他机器学习框架兼容。对于高级用户，可以通过`DatasetBuilder`类自定义数据集的下载与预处理流程，进一步优化数据加载性能。

背景与挑战

背景概述

TensorFlow Datasets（TFDS）是由Google主导开发的一个开源项目，旨在为机器学习和深度学习研究提供丰富且高质量的公共数据集。该项目于2018年正式发布，依托于TensorFlow生态系统，致力于简化数据集的加载与预处理流程。TFDS的核心目标是通过标准化的数据接口，降低研究人员在数据获取与处理上的时间成本，从而加速模型开发与实验迭代。其涵盖的数据集类型广泛，包括图像分类、自然语言处理、音频处理等多个领域，极大地推动了相关领域的研究进展。

当前挑战

TensorFlow Datasets在解决领域问题和构建过程中面临多重挑战。首先，数据集的质量与多样性是核心问题，如何确保数据集的代表性、公平性以及避免偏见，是TFDS持续关注的重点。其次，数据集的构建与维护需要大量的计算资源与人力投入，尤其是在处理大规模数据集（如超过100GiB的数据）时，数据下载、预处理与存储的效率成为瓶颈。此外，数据集的版本管理与更新机制也需不断优化，以确保研究人员能够获取最新且一致的数据。最后，数据集的许可与合规性问题同样不容忽视，TFDS需在确保数据合法使用的同时，维护数据提供者的权益。

常用场景

经典使用场景

TensorFlow Datasets广泛应用于机器学习和深度学习领域，特别是在图像识别、自然语言处理和语音识别等任务中。研究人员和开发者通过该数据集快速构建和训练模型，利用其提供的标准化数据格式和高效的数据加载机制，显著提升了模型开发的效率。

解决学术问题

TensorFlow Datasets解决了学术研究中数据获取和预处理的难题。通过提供大量公开的、经过预处理的数据集，研究人员可以专注于模型设计和优化，而不必花费大量时间在数据收集和清洗上。此外，数据集版本控制和特征解码功能进一步确保了实验的可重复性和数据的可靠性。

实际应用

在实际应用中，TensorFlow Datasets被广泛用于工业界的AI产品开发。例如，在自动驾驶领域，该数据集用于训练车辆识别道路标志和行人的模型；在医疗领域，数据集用于开发疾病诊断和医学影像分析的AI系统。其高效的数据加载和预处理能力使得这些应用能够在短时间内实现从原型到产品的转化。

数据集最近研究