five

TensorFlow Datasets

收藏
github2019-10-12 更新2024-05-31 收录
下载链接:
https://github.com/zil317/datasets
下载链接
链接失效反馈
官方服务:
资源简介:
TensorFlow Datasets提供了许多公共数据集作为`tf.data.Datasets`。

TensorFlow 数据集提供了众多公共数据集,供用户以 `tf.data.Datasets` 的形式进行访问。
创建时间:
2019-09-26
原始信息汇总

数据集概述

TensorFlow Datasets 提供了多种公共数据集,这些数据集可以作为 tf.data.Datasets 使用。

数据集列表

数据集使用示例

API 文档

数据集版本管理

使用分割和切片API

添加数据集

添加大型数据集

数据集安装与使用

安装

  • 命令: pip install tensorflow-datasets
  • 依赖: 需要 TF 1.14+ 安装。

使用

  • 示例代码: python import tensorflow_datasets as tfds import tensorflow as tf

    tf.enable_eager_execution() print(tfds.list_builders()) ds_train, ds_test = tfds.load(name="mnist", split=["train", "test"]) ds_train = ds_train.shuffle(1000).batch(128).prefetch(10) for features in ds_train.take(1): image, label = features["image"], features["label"]

数据集构建器 (DatasetBuilder)

  • 实现: 所有数据集都实现为 DatasetBuilder 的子类。

  • 使用示例: python import tensorflow_datasets as tfds

    mnist_builder = tfds.builder("mnist") mnist_builder.download_and_prepare() ds = mnist_builder.as_dataset(split=tfds.Split.TRAIN) info = mnist_builder.info print(info)

NumPy 使用

  • 使用方法: 使用 tfds.as_numpytf.data.Dataset 获取 NumPy 数组记录。
  • 示例代码: python train_ds = tfds.load("mnist", split=tfds.Split.TRAIN) train_ds = train_ds.shuffle(1024).batch(128).repeat(5).prefetch(10) for example in tfds.as_numpy(train_ds): numpy_images, numpy_labels = example["image"], example["label"]

请求特定数据集

免责声明

  • 责任: 用户需自行确定是否有权使用数据集。
  • 更新与移除: 数据集所有者可通过 GitHub 联系更新或移除数据集。
搜集汇总
数据集介绍
main_image_url
构建方式
TensorFlow Datasets 是一个集成在 TensorFlow 中,用于提供多种公共数据集的库,这些数据集以 tf.data.Datasets 的形式存在。该库通过构建名为 `DatasetBuilder` 的数据集构建器 subclasses 来实现数据集的构建,用户可以通过 `tfds.load` 接口便捷地加载所需的数据集。
使用方法
使用 TensorFlow Datasets 首先需要通过 pip 安装相关库,然后可以通过调用 `tfds.load` 函数加载特定的数据集。用户可以指定数据集的分割,如训练集和测试集,并通过 `shuffle`、`batch` 和 `prefetch` 方法构建高效的数据输入管道。对于需要 NumPy 数组的情况,可以使用 `tfds.as_numpy` 函数来转换数据格式。
背景与挑战
背景概述
TensorFlow Datasets是由TensorFlow团队开发的一个开源库,旨在为研究人员和开发者提供便捷的方式来访问和使用大量公共数据集。自推出以来,它极大地便利了机器学习领域的数据集准备工作,降低了数据处理的复杂性。该库创建于2018年,主要研究人员来自Google Brain团队,其核心研究问题是简化数据集的获取和使用流程,提高数据加载的效率和灵活性。TensorFlow Datasets支持多种数据集,并提供了版本控制功能,确保数据的一致性和可重复性,对机器学习和深度学习社区产生了显著影响。
当前挑战
尽管TensorFlow Datasets提供了丰富的数据集和便捷的接口,但在构建过程中也面临了一些挑战。首先,数据集的多样性和规模不断增长,对库的维护和更新提出了更高的要求。其次,数据集的下载和准备过程需要优化,以确保在不同网络环境和存储条件下的高效性。此外,数据集的许可和使用问题需要用户自行负责,这对库的使用提出了额外的合规性挑战。
常用场景
经典使用场景
TensorFlow Datasets作为TensorFlow的官方数据集工具,其经典使用场景在于为机器学习模型的训练提供标准化的数据集。用户可以轻松加载如MNIST、CIFAR-10等常见数据集,通过其提供的API构建高效的数据输入管道,进而实现模型的训练、验证和测试。
解决学术问题
该数据集解决了学术研究中数据集获取、处理和加载的繁琐过程,通过统一的数据加载接口,简化了数据预处理步骤,使得研究者能够更加专注于模型设计和算法优化。此外,数据集版本控制功能确保了实验的可重复性,对学术研究具有重要的意义和影响。
实际应用
在实际应用中,TensorFlow Datasets被广泛用于构建和训练各种机器学习模型,如计算机视觉、自然语言处理等领域。其高效的数据加载机制使得大规模数据集的处理变得可行,为实际应用中的模型部署提供了强有力的数据支撑。
数据集最近研究
最新研究方向
TensorFlow Datasets作为TensorFlow的子项目,致力于提供多样化、高质量的数据集,以供机器学习研究与实践之用。近期,该数据集在本领域的应用研究主要聚焦于提升数据加载效率、扩展数据集种类以及优化数据处理流程。研究者们通过该平台探索自然语言处理、计算机视觉等领域的深度学习模型训练,尤其在数据增强、模型泛化能力提升等方面取得了显著成果。此外,TensorFlow Datasets在促进公平性、透明性和可解释性的机器学习实践中发挥着重要作用,与当前人工智能领域的热点事件紧密相关,对推动构建负责任的AI生态系统具有重要意义。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作