TensorFlow Datasets
收藏github2020-04-19 更新2024-05-31 收录
下载链接:
https://github.com/bhav09/datasets
下载链接
链接失效反馈官方服务:
资源简介:
TensorFlow数据集提供多种公共数据集作为`tf.data.Datasets`。
TensorFlow Datasets provides a variety of public datasets as `tf.data.Datasets`.
创建时间:
2020-04-17
原始信息汇总
数据集概述
数据集提供
- 平台: TensorFlow Datasets
- 功能: 提供多种公共数据集作为
tf.data.Datasets。
数据集列表与使用
- 数据集列表: TensorFlow Datasets 数据集列表
- 入门指南:
数据集特性与性能
- 使用分割和切片API: TensorFlow Datasets 分割
- 性能建议: TensorFlow Datasets 性能
- 数据集版本控制: TensorFlow Datasets 数据集版本控制
- 特征解码: TensorFlow Datasets 解码
- 在GCS存储数据集: TensorFlow Datasets GCS
添加数据集
- 添加数据集指南: TensorFlow Datasets 添加数据集
- 使用Beam添加大型数据集: TensorFlow Datasets Beam数据集
API文档
- API文档: TensorFlow Datasets API文档
数据集示例 - MNIST
- 数据集名称: MNIST
- 描述: 手写数字数据库
- 主页: MNIST数据库
- 特征:
- 图像: 形状为(28, 28, 1),数据类型为tf.uint8
- 标签: 形状为空,数据类型为tf.int64,类别数为10
- 总样本数: 70000
- 分割:
- 训练集: 60000样本
- 测试集: 10000样本
- 监督键: (image, label)
- 引用: MNIST数据库引用
使用NumPy
- 功能: 使用
tfds.as_numpy将tf.data.Dataset转换为NumPy数组生成器,便于使用NumPy进行模型组件开发。
引用
-
引用格式:
@misc{TFDS, title = {{TensorFlow Datasets}, A collection of ready-to-use datasets}, howpublished = {url{https://www.tensorflow.org/datasets}}, }
请求数据集
搜集汇总
数据集介绍

构建方式
TensorFlow Datasets作为TensorFlow的子项目,旨在提供多种公共数据集,以tf.data.Datasets的形式集成。该数据集的构建主要依赖于TensorFlow内置的`tf.data`库,通过高效的数据管道构建方法,实现了数据集的下载、准备和加载过程。用户可以通过继承`tfds.core.DatasetBuilder`类来实现自定义数据集的构建,进而通过`tfds.builder`或`tfds.load`获取数据集对象。
特点
TensorFlow Datasets具备以下特点:首先,它支持多种数据集的版本控制,确保数据的一致性和可复现性;其次,提供了 splits 和 slicing API,允许用户灵活地对数据集进行切片和划分;此外,数据集支持性能优化建议,帮助用户构建更高效的数据输入管道。同时,该数据集库还支持将数据存储在Google Cloud Storage上,便于大规模分布式训练。
使用方法
使用TensorFlow Datasets非常直观,用户仅需通过`pip`安装相应的库,然后利用`tfds.load`函数加载所需的数据集。此外,用户还可以通过`tfds.builder`获取数据集构建器,进而进行更细致的数据集操作,如下载、准备和转换。对于需要NumPy数组的用户,`tfds.as_numpy`函数可以方便地提供数据集的NumPy表示形式。
背景与挑战
背景概述
TensorFlow Datasets,简称TFDS,是由TensorFlow团队开发的一个开源库,旨在为研究者提供方便快捷的公共数据集访问方式。该库创建于2018年,由Google的TensorFlow团队维护,其核心研究问题是构建高效、易于使用且具有可扩展性的数据集加载与预处理工具。TFDS对机器学习领域,尤其是深度学习领域的研究与发展产生了重要影响,极大地降低了研究人员获取与处理数据集的门槛。
当前挑战
TensorFlow Datasets面临的挑战主要涉及两个方面:一是数据集的多样性和规模不断扩大带来的维护和更新挑战;二是确保数据加载和预处理的高效性,以满足日益增长的计算需求。此外,数据集的版权和合规性问题也是一大挑战,需要确保所有数据集的合法使用和分发。
常用场景
经典使用场景
TensorFlow Datasets作为TensorFlow的官方数据集库,其经典使用场景主要在于为机器学习模型训练提供标准化、易用的数据集。用户可以通过简洁的API调用来加载、处理和转换多种格式的数据集,例如MNIST、CIFAR-10等,进而直接用于模型的训练与验证。
衍生相关工作
基于TensorFlow Datasets,衍生出了许多经典的相关工作,如数据增强技术的集成、自定义数据集的加载方法、以及针对特定应用场景的数据预处理流程。这些工作进一步扩展了TensorFlow Datasets的功能,为机器学习社区的研究与应用提供了更为丰富的工具和方法。
数据集最近研究
最新研究方向
TensorFlow Datasets作为TensorFlow的内置数据集加载工具,其最新研究方向主要集中于提升数据加载效率、扩展数据集种类及优化用户使用体验。当前研究的热点事件包括对大规模数据集的高效处理,以满足深度学习模型训练的需求,以及对数据集版本控制的研究,确保数据集的一致性和可复现性。此外,该工具对数据集的分布式加载和存储优化也具有重要意义,为人工智能领域的研究与发展提供了强有力的数据支撑。
以上内容由遇见数据集搜集并总结生成



