TensorFlow Datasets

github2023-09-05 更新2024-05-31 收录

下载链接：

https://github.com/lijunzh/datasets

下载链接

链接失效反馈

官方服务：

资源简介：

TensorFlow数据集提供了许多公共数据集，可作为`tf.data.Datasets`使用。

TensorFlow数据集汇聚了众多公共数据集，可供用户以`tf.data.Datasets`的形式加以利用。

创建时间：

2019-10-08

原始信息汇总

数据集概述

数据集列表

链接: TensorFlow Datasets 数据集列表

数据集使用示例

Python 代码示例: python import tensorflow_datasets as tfds import tensorflow as tf

tf.compat.v1.enable_eager_execution()

print(tfds.list_builders())

ds_train, ds_test = tfds.load(name="mnist", split=["train", "test"])

ds_train = ds_train.shuffle(1000).batch(128).prefetch(10) for features in ds_train.take(1): image, label = features["image"], features["label"]

数据集构建器 (`DatasetBuilder`)

实现: 所有数据集作为 DatasetBuilder 的子类实现。
使用示例: python import tensorflow_datasets as tfds

mnist_builder = tfds.builder("mnist") mnist_builder.download_and_prepare() ds = mnist_builder.as_dataset(split=tfds.Split.TRAIN) info = mnist_builder.info print(info)

数据集信息 (`DatasetInfo`)

示例: python info = tfds.builder(cats_vs_dogs).info info.features[label].num_classes # 2 info.features[label].names # [cat, dog] info.features[label].int2str(1) # "dog" info.features[label].str2int(cat) # 0

NumPy 使用

功能: 使用 tfds.as_numpy 将 tf.data.Dataset 转换为 NumPy 数组。
使用示例: python train_ds = tfds.load("mnist", split=tfds.Split.TRAIN) train_ds = train_ds.shuffle(1024).batch(128).repeat(5).prefetch(10) for example in tfds.as_numpy(train_ds): numpy_images, numpy_labels = example["image"], example["label"]

请求新数据集

添加数据集指南: TensorFlow Datasets 添加数据集指南
数据集请求: 通过 GitHub 问题提交数据集请求。

免责声明

责任: 用户需自行判断是否有权使用数据集，并遵守数据集的许可证。
更新与移除: 数据集所有者可通过 GitHub 问题联系更新或移除数据集。
责任 AI 实践: 参考 Google AI 的 Responsible AI Practices。

搜集汇总

数据集介绍

构建方式

TensorFlow Datasets的构建方式主要依赖于`tf.data.Datasets`框架，通过将各类公开数据集封装为统一的接口形式，便于用户直接调用。每个数据集均以`DatasetBuilder`子类的形式实现，用户可以通过`tfds.load`方法轻松加载数据集。此外，数据集在下载和预处理过程中会自动进行版本控制，确保数据的完整性和一致性。

使用方法

使用TensorFlow Datasets时，用户首先需要通过`pip install tensorflow-datasets`安装库，并确保已安装TensorFlow。随后，通过`tfds.load`方法加载所需数据集，并利用`tf.data.Dataset`构建高效的数据输入管道。数据集支持Eager和Graph两种模式，用户可以根据需求选择。此外，`tfds.as_numpy`方法可将数据集转换为NumPy数组，便于与其他机器学习框架集成。

背景与挑战

背景概述

TensorFlow Datasets是由Google的TensorFlow团队开发的一个开源项目，旨在为机器学习和深度学习研究提供丰富且多样化的公共数据集。该项目自2018年推出以来，迅速成为学术界和工业界广泛使用的工具之一。TensorFlow Datasets不仅集成了经典的基准数据集，如MNIST和CIFAR-10，还涵盖了从自然语言处理到计算机视觉等多个领域的数据集。其核心研究问题在于如何高效地管理和预处理大规模数据集，以便研究人员能够专注于模型的设计与优化。通过提供标准化的数据加载接口，TensorFlow Datasets极大地简化了数据处理的复杂性，推动了机器学习领域的快速发展。

当前挑战

TensorFlow Datasets在解决领域问题时面临的主要挑战包括数据集的多样性与规模管理。随着数据集的不断扩展，如何确保数据的高效加载与预处理成为关键问题。此外，数据集的版本控制和质量保证也是构建过程中的重要挑战。由于数据集来源广泛，确保数据的准确性和一致性需要耗费大量资源。另一个挑战是数据集的公平性与伦理问题，特别是在涉及敏感数据时，如何确保数据的使用符合伦理规范和法律要求。这些挑战不仅影响了数据集的构建过程，也对研究人员的模型训练和评估提出了更高的要求。

常用场景

经典使用场景

TensorFlow Datasets 作为一个广泛使用的数据集集合，常用于机器学习和深度学习模型的训练与评估。其经典使用场景包括图像分类、自然语言处理和时间序列分析等领域。例如，MNIST数据集被广泛用于手写数字识别任务，而IMDB数据集则常用于情感分析研究。通过提供标准化的数据加载和处理接口，TensorFlow Datasets极大地简化了数据预处理流程，使得研究人员能够专注于模型的设计与优化。

解决学术问题

TensorFlow Datasets 解决了学术研究中数据获取和预处理的难题。通过提供大量公开数据集，研究人员无需自行收集和清洗数据，从而节省了大量时间和资源。此外，数据集的标准格式和统一的API接口使得不同研究之间的结果更具可比性，促进了学术界的交流与合作。例如，CIFAR-10数据集的使用使得图像分类算法的性能评估更加标准化，推动了该领域的快速发展。

实际应用

在实际应用中，TensorFlow Datasets 被广泛应用于工业界的多个领域。例如，在医疗影像分析中，CheXpert数据集被用于训练深度学习模型以辅助医生进行疾病诊断。在自动驾驶领域，Cityscapes数据集则用于训练和测试车辆环境感知系统。这些数据集的高质量和易用性使得企业能够快速构建和部署AI解决方案，推动了人工智能技术在现实世界中的广泛应用。

数据集最近研究