five

TensorFlow Datasets

收藏
github2019-10-10 更新2024-05-31 收录
下载链接:
https://github.com/HubBucket-Team/datasets
下载链接
链接失效反馈
官方服务:
资源简介:
TensorFlow Datasets 提供了许多作为 `tf.data.Datasets` 的公共数据集。

TensorFlow 数据集提供了众多以 `tf.data.Datasets` 格式公开的数据集。
创建时间:
2019-10-10
原始信息汇总

数据集概述

TensorFlow Datasets 提供了多种公共数据集,这些数据集可以作为 tf.data.Datasets 使用。

数据集列表

数据集使用示例

数据集API文档

数据集版本管理

数据集分割和切片API

添加数据集指南

数据集安装与使用

安装

  • 安装命令: sh pip install tensorflow-datasets pip install tensorflow

使用示例

  • Python 代码示例: python import tensorflow_datasets as tfds import tensorflow as tf

    tf.compat.v1.enable_eager_execution() print(tfds.list_builders()) ds_train, ds_test = tfds.load(name="mnist", split=["train", "test"]) ds_train = ds_train.shuffle(1000).batch(128).prefetch(10) for features in ds_train.take(1): image, label = features["image"], features["label"]

数据集构建器 (DatasetBuilder)

示例代码

python import tensorflow_datasets as tfds

mnist_builder = tfds.builder("mnist") mnist_builder.download_and_prepare() ds = mnist_builder.as_dataset(split=tfds.Split.TRAIN) info = mnist_builder.info print(info)

NumPy 使用

  • 使用 tfds.as_numpy: python train_ds = tfds.load("mnist", split=tfds.Split.TRAIN) train_ds = train_ds.shuffle(1024).batch(128).repeat(5).prefetch(10) for example in tfds.as_numpy(train_ds): numpy_images, numpy_labels = example["image"], example["label"]

请求数据集

搜集汇总
数据集介绍
main_image_url
构建方式
TensorFlow Datasets 通过对多种公开数据集的整合,实现了数据集的自动化下载、预处理和加载。该平台基于 TensorFlow 构建了一套完整的 `tf.data.Dataset` 对象生成流程,用户可以通过继承 `DatasetBuilder` 类来定制化数据集构建过程,其中包括数据集的下载、准备、以及转换为 TensorFlow 数据集格式等步骤。
特点
TensorFlow Datasets 拥有丰富的数据集资源,支持多种常见的数据集,并提供灵活的数据集版本管理、切片API和NumPy使用方式。此外,它支持数据集信息的详尽文档化,包括数据集的描述、特征、示例数量等,以及为监督学习任务提供的标签信息。其特点在于易用性、灵活性和可扩展性。
使用方法
使用 TensorFlow Datasets 首先需要通过 `pip` 安装相关库。之后,用户可以利用 `tfds.load` 函数加载预定义的数据集,或通过 `DatasetBuilder` 类自定义数据集。数据集加载后,可以应用 TensorFlow 数据集的API进行打乱、批处理、预取等操作以构建输入管道,并通过 `tfds.as_numpy` 函数将数据转换为NumPy数组格式,以便于在模型中使用。
背景与挑战
背景概述
TensorFlow Datasets,简称TFDS,是由Google主导开发的一个开源机器学习数据集库。该库创建于2018年,旨在为TensorFlow用户提供一个便捷的数据集平台,它包含了众多公开数据集,并以`tf.data.Datasets`的形式提供。TFDS的核心研究人员来自Google AI,其核心研究问题是简化数据集的加载、处理和版本控制,以提高机器学习研究的效率。TFDS的推出极大地促进了深度学习领域的发展,受到了广大研究者和开发者的欢迎。
当前挑战
TensorFlow Datasets在解决数据集加载与处理问题的同时,也面临着一些挑战。首先,随着数据集的不断增多,如何高效管理和维护这些数据集成为一个问题。其次,构建过程中确保数据集的质量、完整性和合法性也是一大挑战。此外,不同数据集的版本控制和更新机制也需要不断完善,以适应不断变化的TensorFlow框架和用户需求。
常用场景
经典使用场景
TensorFlow Datasets作为TensorFlow的官方数据集工具,其经典使用场景在于为深度学习模型训练提供标准化、易用的数据集。用户可以通过简单的API调用,加载如MNIST、CIFAR-10等常见数据集,快速构建和迭代模型。
实际应用
在实际应用中,TensorFlow Datasets被广泛应用于机器学习工程师和数据科学家的日常工作中,用于快速原型设计和模型验证。它支持大规模数据集的加载和预处理,有效提升了模型开发和部署的效率。
衍生相关工作
基于TensorFlow Datasets,衍生出了大量相关的工作,包括数据集的扩展、改进以及针对特定任务的定制化数据集构建。这些工作不仅丰富了TensorFlow生态系统,也为机器学习领域的研究和应用提供了强有力的数据支持。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作