five

TensorFlow Datasets

收藏
github2020-04-19 更新2024-05-31 收录
下载链接:
https://github.com/bhav09/datasets
下载链接
链接失效反馈
官方服务:
资源简介:
TensorFlow数据集提供多种公共数据集作为`tf.data.Datasets`。

TensorFlow Datasets provides a variety of public datasets as `tf.data.Datasets`.
创建时间:
2020-04-17
原始信息汇总

数据集概述

数据集提供

  • 平台: TensorFlow Datasets
  • 功能: 提供多种公共数据集作为tf.data.Datasets

数据集列表与使用

数据集特性与性能

添加数据集

API文档

数据集示例 - MNIST

  • 数据集名称: MNIST
  • 描述: 手写数字数据库
  • 主页: MNIST数据库
  • 特征:
    • 图像: 形状为(28, 28, 1),数据类型为tf.uint8
    • 标签: 形状为空,数据类型为tf.int64,类别数为10
  • 总样本数: 70000
  • 分割:
    • 训练集: 60000样本
    • 测试集: 10000样本
  • 监督键: (image, label)
  • 引用: MNIST数据库引用

使用NumPy

  • 功能: 使用tfds.as_numpytf.data.Dataset转换为NumPy数组生成器,便于使用NumPy进行模型组件开发。

引用

  • 引用格式:

    @misc{TFDS, title = {{TensorFlow Datasets}, A collection of ready-to-use datasets}, howpublished = {url{https://www.tensorflow.org/datasets}}, }

请求数据集

  • 添加数据集: 遵循指南添加新数据集。
  • 数据集请求: 通过GitHub问题请求新数据集。
搜集汇总
数据集介绍
main_image_url
构建方式
TensorFlow Datasets作为TensorFlow的子项目,旨在提供多种公共数据集,以tf.data.Datasets的形式集成。该数据集的构建主要依赖于TensorFlow内置的`tf.data`库,通过高效的数据管道构建方法,实现了数据集的下载、准备和加载过程。用户可以通过继承`tfds.core.DatasetBuilder`类来实现自定义数据集的构建,进而通过`tfds.builder`或`tfds.load`获取数据集对象。
特点
TensorFlow Datasets具备以下特点:首先,它支持多种数据集的版本控制,确保数据的一致性和可复现性;其次,提供了 splits 和 slicing API,允许用户灵活地对数据集进行切片和划分;此外,数据集支持性能优化建议,帮助用户构建更高效的数据输入管道。同时,该数据集库还支持将数据存储在Google Cloud Storage上,便于大规模分布式训练。
使用方法
使用TensorFlow Datasets非常直观,用户仅需通过`pip`安装相应的库,然后利用`tfds.load`函数加载所需的数据集。此外,用户还可以通过`tfds.builder`获取数据集构建器,进而进行更细致的数据集操作,如下载、准备和转换。对于需要NumPy数组的用户,`tfds.as_numpy`函数可以方便地提供数据集的NumPy表示形式。
背景与挑战
背景概述
TensorFlow Datasets,简称TFDS,是由TensorFlow团队开发的一个开源库,旨在为研究者提供方便快捷的公共数据集访问方式。该库创建于2018年,由Google的TensorFlow团队维护,其核心研究问题是构建高效、易于使用且具有可扩展性的数据集加载与预处理工具。TFDS对机器学习领域,尤其是深度学习领域的研究与发展产生了重要影响,极大地降低了研究人员获取与处理数据集的门槛。
当前挑战
TensorFlow Datasets面临的挑战主要涉及两个方面:一是数据集的多样性和规模不断扩大带来的维护和更新挑战;二是确保数据加载和预处理的高效性,以满足日益增长的计算需求。此外,数据集的版权和合规性问题也是一大挑战,需要确保所有数据集的合法使用和分发。
常用场景
经典使用场景
TensorFlow Datasets作为TensorFlow的官方数据集库,其经典使用场景主要在于为机器学习模型训练提供标准化、易用的数据集。用户可以通过简洁的API调用来加载、处理和转换多种格式的数据集,例如MNIST、CIFAR-10等,进而直接用于模型的训练与验证。
衍生相关工作
基于TensorFlow Datasets,衍生出了许多经典的相关工作,如数据增强技术的集成、自定义数据集的加载方法、以及针对特定应用场景的数据预处理流程。这些工作进一步扩展了TensorFlow Datasets的功能,为机器学习社区的研究与应用提供了更为丰富的工具和方法。
数据集最近研究
最新研究方向
TensorFlow Datasets作为TensorFlow的内置数据集加载工具,其最新研究方向主要集中于提升数据加载效率、扩展数据集种类及优化用户使用体验。当前研究的热点事件包括对大规模数据集的高效处理,以满足深度学习模型训练的需求,以及对数据集版本控制的研究,确保数据集的一致性和可复现性。此外,该工具对数据集的分布式加载和存储优化也具有重要意义,为人工智能领域的研究与发展提供了强有力的数据支撑。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作