TensorFlow Datasets

github2019-12-18 更新2024-05-31 收录

下载链接：

https://github.com/amauryjunior/datasets

下载链接

链接失效反馈

官方服务：

资源简介：

TensorFlow Datasets提供了许多公共数据集作为`tf.data.Datasets`。

TensorFlow 数据集提供了众多公共数据集，以 `tf.data.Datasets` 的形式呈现。

创建时间：

2019-12-18

原始信息汇总

数据集概述

TensorFlow Datasets 提供多种公共数据集作为 tf.data.Datasets。

数据集列表

访问 TensorFlow Datasets 数据集列表查看所有可用数据集。

数据集使用示例

MNIST 数据集：
- 数据集包含手写数字图像，共有70000张图片，分为训练集（60000张）和测试集（10000张）。
- 图像特征为28x28像素的灰度图像，标签为0到9的数字。
- 数据集信息可通过 tfds.builder(mnist).info 获取，包括数据集描述、主页、特征、总样本数、分割信息、监督键和引用。

数据集构建与加载

数据集通过 tfds.builder(dataset_name) 构建，使用 download_and_prepare() 方法下载和准备数据。
使用 tfds.load(name="dataset_name", split="train") 加载数据集。
数据集可通过 tfds.as_numpy 转换为NumPy数组，便于模型训练。

数据集请求与添加

请求新数据集可通过 GitHub 问题提交。
添加新数据集的指南可参考 TensorFlow Datasets 添加数据集指南。

免责声明

TensorFlow Datasets 仅提供数据集下载和准备工具，不负责数据集的质量、公平性或使用许可。用户需自行确认数据集使用的合法性。

搜集汇总

数据集介绍

构建方式

TensorFlow Datasets 是一个集成于 TensorFlow 的模块，提供了多种公共数据集的实现，均作为 `tf.data.Datasets` 的形式。该数据集的构建主要依赖于 TensorFlow 的 `tf.data` API，通过定义 `DatasetBuilder` 类的子类来实现各个具体数据集的下载、准备和加载流程。

使用方法

使用 TensorFlow Datasets 首先需要通过 `pip` 安装相应的包。之后，用户可以通过 `tfds.load` 函数加载数据集，并利用 TensorFlow 的 `tf.data` API 进行数据预处理和构建输入管道。对于需要 NumPy 数组形式数据的用户，可以使用 `tfds.as_numpy` 函数来获取。

背景与挑战

背景概述

TensorFlow Datasets，简称TFDS，是由Google AI团队开发并于2018年推出的一款开源数据集工具。该工具旨在为TensorFlow提供便捷的数据集加载和预处理功能，它集成了众多公开数据集，用户可以通过简单的API调用即可获取所需数据集。TFDS支持多种数据格式，并提供数据集版本控制、数据分割、切片等功能，大幅简化了机器学习项目中的数据准备工作。其主要研究人员包括Google AI的工程师和研究者，对机器学习领域的数据处理和模型训练产生了重要影响。

当前挑战

TensorFlow Datasets在构建和提供数据集服务时面临的挑战主要包括：确保数据集的多样性和质量，处理不同数据集之间的兼容性问题，以及优化数据加载和预处理性能。此外，数据集的版权和合规使用问题也是一大挑战，需要确保所有集成的数据集都遵循相应的使用协议和版权要求。在研究领域，TFDS需要不断更新以适应不断涌现的新数据集和机器学习技术的发展，同时也要解决用户在使用特定数据集时可能遇到的性能瓶颈问题。

常用场景

经典使用场景

TensorFlow Datasets作为TensorFlow的官方数据集工具，其经典使用场景在于为深度学习研究者和开发者提供便捷的数据加载、处理和预处理的接口。通过内置的多种公开数据集，用户可以轻松加载常用的机器学习训练数据，例如MNIST手写数字数据集，进而快速构建和迭代其机器学习模型。

解决学术问题

该数据集解决了学术研究中数据加载与处理流程繁琐、易出错的问题。通过提供标准化的数据加载流程和统一的数据结构，TensorFlow Datasets极大地提升了学术研究的效率，使得研究者能够更加专注于模型设计和算法优化，而非数据准备过程。此外，其数据版本控制功能也有助于确保研究的可重复性。

实际应用

在实际应用中，TensorFlow Datasets被广泛应用于机器学习和深度学习的项目中，如自然语言处理、计算机视觉等领域。它使得开发人员能够快速集成高质量的数据集，构建高效的数据管道，从而加速模型训练和产品部署的流程。

数据集最近研究