TensorFlow Datasets

github2019-07-11 更新2024-05-31 收录

下载链接：

https://github.com/ahmedfadhil/datasets

下载链接

链接失效反馈

官方服务：

资源简介：

TensorFlow Datasets 提供多种公共数据集，作为 `tf.data.Datasets` 使用。

TensorFlow 数据集提供了多种公共数据集，可供作为 `tf.data.Datasets` 使用。

创建时间：

2019-05-13

原始信息汇总

数据集概述

数据集列表

TensorFlow Datasets 提供多种公共数据集，可通过以下链接查看完整列表：List of datasets

数据集使用示例

使用 tensorflow_datasets 模块加载数据集，例如加载 mnist 数据集： python import tensorflow_datasets as tfds ds_train, ds_test = tfds.load(name="mnist", split=["train", "test"])

数据集构建器 (`DatasetBuilder`)

所有数据集均实现为 DatasetBuilder 的子类，通过 tfds.builder("mnist") 获取数据集构建器。
数据集信息通过 DatasetInfo 对象获取，包含数据集的详细信息，如特征描述、总样本数等。

NumPy 使用

使用 tfds.as_numpy 可以将 tf.data.Dataset 转换为生成 NumPy 数组的生成器，便于在模型中使用。

数据集请求

如需添加新数据集，可参考 Add a dataset 指南。
可通过 Dataset request GitHub issue 请求新数据集。

免责声明

TensorFlow Datasets 仅提供数据集下载和准备功能，使用者需自行确认数据集的使用权限和合法性。

搜集汇总

数据集介绍

构建方式

TensorFlow Datasets 通过对多种公开数据集进行封装和整合，构建了适用于机器学习研究的统一数据集接口。该数据集的构建主要依赖于 TensorFlow 构建器和数据集信息文档，通过对数据集进行下载、预处理和封装，使用户能够便捷地获取适用于模型训练的数据格式。

特点

TensorFlow Datasets 拥有丰富的数据集资源，支持易于使用的 Python 接口，并且可以无缝地与 TensorFlow 构建器和 tf.data API 集成。它支持 NumPy 使用方式，提供了高效的数据加载机制，并且允许用户根据需要添加新的数据集。此外，它对数据集的信息进行了详细描述，包括版本、描述、特征、示例数量等。

使用方法

用户可以通过简单的 pip 命令安装 TensorFlow Datasets，然后使用 tfds.load 函数加载数据集，支持指定数据集的分割方式，如训练集和测试集。此外，用户还可以利用 tfds.as_numpy 将数据集转换为 NumPy 数组格式，以便于在模型训练中使用。数据集的详细信息可以通过 DatasetBuilder 类和 DatasetInfo 对象进行查询。

背景与挑战

背景概述

TensorFlow Datasets，简称TFDS，是由TensorFlow团队开发的一个开源库，旨在为研究人员和开发者提供便捷的方式来加载和预处理公共数据集。该库创建于2018年，由Google的AI团队维护，它支持多种数据格式，并且能够与TensorFlow框架无缝集成。TFDS提供了大量的数据集，涵盖了图像、文本、音频等多个领域，极大地促进了机器学习领域的研究工作，尤其是对于深度学习模型的训练和评估。其影响力在机器学习社区中不言而喻，被广泛应用于学术研究和工业界的产品开发中。

当前挑战

TensorFlow Datasets在构建过程中遇到的挑战主要包括数据的多样性和规模性。首先，需要处理的数据集类型繁多，从结构化数据到非结构化数据，如图片、音频和视频等，每种数据类型都需要特定的处理方法。其次，大规模数据集的加载和预处理需要高效的数据管道，这要求TFDS必须优化内存管理和数据处理效率。此外，TFDS面临的挑战还包括数据集的兼容性问题，确保其能够与不断更新的TensorFlow版本兼容，以及遵守数据集的版权和使用许可，确保用户合法使用数据集。

常用场景

经典使用场景

TensorFlow Datasets作为TensorFlow的官方数据集加载库，其经典使用场景在于为机器学习和深度学习模型训练提供便捷、高效的数据加载和预处理功能。用户可通过简单的API调用，获取到已经预处理好的多种格式化数据集，从而专注于模型构建与训练，而无需耗费大量时间在数据准备上。

实际应用

在实际应用中，TensorFlow Datasets被广泛应用于机器学习工程师和研究人员构建和训练模型。例如，在图像识别、语音识别和文本分析等任务中，该库能够简化数据加载流程，加快模型的开发与迭代速度，最终加速产品的上市时间。

衍生相关工作

基于TensorFlow Datasets，衍生出了许多扩展工作，包括但不限于数据集的增加、数据预处理方法的改进以及与其它机器学习框架的兼容性扩展。这些相关工作进一步丰富了数据集的多样性，提高了数据处理的灵活性和适用范围。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集