TensorFlow Datasets
收藏github2019-10-10 更新2024-05-31 收录
下载链接:
https://github.com/HubBucket-Team/datasets
下载链接
链接失效反馈官方服务:
资源简介:
TensorFlow Datasets 提供了许多作为 `tf.data.Datasets` 的公共数据集。
TensorFlow 数据集提供了众多以 `tf.data.Datasets` 格式公开的数据集。
创建时间:
2019-10-10
原始信息汇总
数据集概述
TensorFlow Datasets 提供了多种公共数据集,这些数据集可以作为 tf.data.Datasets 使用。
数据集列表
- 链接: 数据集列表
数据集使用示例
- Colab 示例: 在 Colab 中尝试
数据集API文档
- API 文档: API 文档
数据集版本管理
- 版本管理: 数据集版本管理
数据集分割和切片API
- 分割和切片API: 使用分割和切片API
添加数据集指南
数据集安装与使用
安装
- 安装命令: sh pip install tensorflow-datasets pip install tensorflow
使用示例
-
Python 代码示例: python import tensorflow_datasets as tfds import tensorflow as tf
tf.compat.v1.enable_eager_execution() print(tfds.list_builders()) ds_train, ds_test = tfds.load(name="mnist", split=["train", "test"]) ds_train = ds_train.shuffle(1000).batch(128).prefetch(10) for features in ds_train.take(1): image, label = features["image"], features["label"]
数据集构建器 (DatasetBuilder)
- 数据集构建器:
DatasetBuilder - 数据集信息:
DatasetInfo
示例代码
python import tensorflow_datasets as tfds
mnist_builder = tfds.builder("mnist") mnist_builder.download_and_prepare() ds = mnist_builder.as_dataset(split=tfds.Split.TRAIN) info = mnist_builder.info print(info)
NumPy 使用
- 使用
tfds.as_numpy: python train_ds = tfds.load("mnist", split=tfds.Split.TRAIN) train_ds = train_ds.shuffle(1024).batch(128).repeat(5).prefetch(10) for example in tfds.as_numpy(train_ds): numpy_images, numpy_labels = example["image"], example["label"]
请求数据集
- 添加数据集: 添加数据集指南
- 数据集请求: 数据集请求GitHub问题
搜集汇总
数据集介绍

构建方式
TensorFlow Datasets 通过对多种公开数据集的整合,实现了数据集的自动化下载、预处理和加载。该平台基于 TensorFlow 构建了一套完整的 `tf.data.Dataset` 对象生成流程,用户可以通过继承 `DatasetBuilder` 类来定制化数据集构建过程,其中包括数据集的下载、准备、以及转换为 TensorFlow 数据集格式等步骤。
特点
TensorFlow Datasets 拥有丰富的数据集资源,支持多种常见的数据集,并提供灵活的数据集版本管理、切片API和NumPy使用方式。此外,它支持数据集信息的详尽文档化,包括数据集的描述、特征、示例数量等,以及为监督学习任务提供的标签信息。其特点在于易用性、灵活性和可扩展性。
使用方法
使用 TensorFlow Datasets 首先需要通过 `pip` 安装相关库。之后,用户可以利用 `tfds.load` 函数加载预定义的数据集,或通过 `DatasetBuilder` 类自定义数据集。数据集加载后,可以应用 TensorFlow 数据集的API进行打乱、批处理、预取等操作以构建输入管道,并通过 `tfds.as_numpy` 函数将数据转换为NumPy数组格式,以便于在模型中使用。
背景与挑战
背景概述
TensorFlow Datasets,简称TFDS,是由Google主导开发的一个开源机器学习数据集库。该库创建于2018年,旨在为TensorFlow用户提供一个便捷的数据集平台,它包含了众多公开数据集,并以`tf.data.Datasets`的形式提供。TFDS的核心研究人员来自Google AI,其核心研究问题是简化数据集的加载、处理和版本控制,以提高机器学习研究的效率。TFDS的推出极大地促进了深度学习领域的发展,受到了广大研究者和开发者的欢迎。
当前挑战
TensorFlow Datasets在解决数据集加载与处理问题的同时,也面临着一些挑战。首先,随着数据集的不断增多,如何高效管理和维护这些数据集成为一个问题。其次,构建过程中确保数据集的质量、完整性和合法性也是一大挑战。此外,不同数据集的版本控制和更新机制也需要不断完善,以适应不断变化的TensorFlow框架和用户需求。
常用场景
经典使用场景
TensorFlow Datasets作为TensorFlow的官方数据集工具,其经典使用场景在于为深度学习模型训练提供标准化、易用的数据集。用户可以通过简单的API调用,加载如MNIST、CIFAR-10等常见数据集,快速构建和迭代模型。
实际应用
在实际应用中,TensorFlow Datasets被广泛应用于机器学习工程师和数据科学家的日常工作中,用于快速原型设计和模型验证。它支持大规模数据集的加载和预处理,有效提升了模型开发和部署的效率。
衍生相关工作
基于TensorFlow Datasets,衍生出了大量相关的工作,包括数据集的扩展、改进以及针对特定任务的定制化数据集构建。这些工作不仅丰富了TensorFlow生态系统,也为机器学习领域的研究和应用提供了强有力的数据支持。
以上内容由遇见数据集搜集并总结生成



