TensorFlow Datasets
收藏github2020-08-20 更新2024-05-31 收录
下载链接:
https://github.com/jason-zl190/datasets
下载链接
链接失效反馈官方服务:
资源简介:
TensorFlow Datasets 提供多种公共数据集作为 `tf.data.Datasets`,方便与TensorFlow配合使用。
TensorFlow 数据集提供了多种公共数据集,以 `tf.data.Datasets` 的形式呈现,便于与 TensorFlow 集成使用。
创建时间:
2019-08-12
原始信息汇总
数据集概述
数据集列表
数据集使用示例
-
示例代码: python import tensorflow_datasets as tfds import tensorflow as tf
ds_train = tfds.load(mnist, split=train, shuffle_files=True) ds_train = ds_train.shuffle(1000).batch(128).prefetch(10) for features in ds_train.take(1): image, label = features[image], features[label]
数据集构建器 (DatasetBuilder)
-
功能: 所有数据集通过
tfds.core.DatasetBuilder实现,提供download_and_prepare()和as_dataset()方法。 -
示例代码: python import tensorflow_datasets as tfds
mnist_builder = tfds.builder(mnist) mnist_builder.download_and_prepare() ds = mnist_builder.as_dataset(split=train) info = mnist_builder.info print(info)
数据集信息 (DatasetInfo)
- 示例内容: python tfds.core.DatasetInfo( name=mnist, version=3.0.1, description=The MNIST database of handwritten digits., homepage=http://yann.lecun.com/exdb/mnist/, features=FeaturesDict({ image: Image(shape=(28, 28, 1), dtype=tf.uint8), label: ClassLabel(shape=(), dtype=tf.int64, num_classes=10), }), total_num_examples=70000, splits={ test: 10000, train: 60000, }, supervised_keys=(image, label), citation="""@article{lecun2010mnist, title={MNIST handwritten digit database}, author={LeCun, Yann and Cortes, Corinna and Burges, CJ}, journal={ATT Labs [Online]. Available: http://yann.lecun.com/exdb/mnist}, volume={2}, year={2010} }""", )
NumPy 使用 (tfds.as_numpy)
- 功能: 将
tf.data.Dataset转换为 NumPy 数组生成器。 - 示例代码: python train_ds = tfds.load("mnist", split="train") train_ds = train_ds.shuffle(1024).batch(128).repeat(5).prefetch(10) for example in tfds.as_numpy(train_ds): numpy_images, numpy_labels = example["image"], example["label"]
引用信息
-
引用格式:
@misc{TFDS, title = {{TensorFlow Datasets}, A collection of ready-to-use datasets}, howpublished = {url{https://www.tensorflow.org/datasets}}, }
数据集请求
- 请求方式: 通过 GitHub 问题 提交数据集请求。
搜集汇总
数据集介绍

构建方式
TensorFlow Datasets(TFDS)通过集成多种公开数据集,并利用TensorFlow内置的`tf.data`库构建高效的数据管道。每个数据集均以`tf.data.Dataset`的形式提供,支持用户通过简单的API调用进行数据加载与预处理。数据集的构建过程包括数据下载、格式转换及分片处理,确保数据的高效访问与使用。此外,TFDS支持用户自定义数据集的添加,通过`DatasetBuilder`类实现数据集的灵活扩展与版本管理。
特点
TensorFlow Datasets以其丰富的数据集种类和高效的数据处理能力著称。数据集涵盖图像、文本、音频等多个领域,且每个数据集均提供详细的元信息,包括数据格式、类别标签及引用信息。TFDS支持数据分片与切片操作,便于用户按需加载部分数据。同时,数据集版本管理功能确保实验的可重复性。此外,TFDS与TensorFlow生态无缝集成,支持GPU加速与分布式训练,极大提升了数据处理的效率。
使用方法
使用TensorFlow Datasets时,用户可通过`tfds.load`函数快速加载数据集,并通过`tf.data.Dataset`接口构建数据管道。数据集支持分片加载、批量处理及数据增强等操作,适用于深度学习模型的训练与评估。对于需要NumPy数组的用户,TFDS提供了`tfds.as_numpy`接口,将数据集转换为NumPy格式。此外,用户可通过`DatasetBuilder`类自定义数据集加载流程,获取数据集的详细信息,如类别标签、数据分布等。TFDS还提供了详细的文档与示例,帮助用户快速上手。
背景与挑战
背景概述
TensorFlow Datasets(TFDS)是由Google主导开发的一个开源项目,旨在为机器学习和深度学习研究提供丰富且标准化的数据集。该项目自2018年发布以来,迅速成为学术界和工业界的重要资源。TFDS的核心目标是通过提供易于使用的`tf.data.Dataset`接口,简化数据加载和预处理流程,从而加速模型开发与实验。其数据集涵盖图像、文本、音频等多个领域,广泛应用于计算机视觉、自然语言处理和语音识别等研究方向。TFDS的推出不仅降低了数据获取的门槛,还通过版本控制和标准化特征描述,提升了研究的可重复性和透明度。
当前挑战
尽管TensorFlow Datasets在数据集的多样性和易用性方面取得了显著进展,但仍面临诸多挑战。首先,数据集的规模和质量参差不齐,部分数据集存在标注不准确或数据分布不均的问题,这可能影响模型的训练效果。其次,数据集的构建和更新需要大量人力与计算资源,尤其是在处理大规模数据集时,数据下载、存储和预处理的时间成本较高。此外,TFDS依赖于TensorFlow生态系统,对于使用其他深度学习框架的研究者来说,可能存在一定的兼容性问题。最后,数据集的版权和许可问题也需要谨慎处理,以确保合法使用和分发。
常用场景
经典使用场景
TensorFlow Datasets 在机器学习和深度学习领域中,广泛应用于模型训练与评估。通过提供标准化的数据加载接口,研究者可以快速获取并处理如MNIST、CIFAR-10等经典数据集,极大地简化了数据预处理流程。该数据集库支持多种数据格式和高效的数据管道构建,使得研究者能够专注于模型设计与优化,而非数据处理的繁琐细节。
实际应用
在实际应用中,TensorFlow Datasets 被广泛用于图像分类、自然语言处理、语音识别等任务。例如,在图像分类任务中,研究者可以使用该数据集库快速加载并预处理ImageNet数据集,进而训练和评估深度学习模型。其高效的数据管道和灵活的API设计,使得该库成为工业界和学术界进行大规模数据处理的理想工具。
衍生相关工作
TensorFlow Datasets 的推出催生了许多相关研究工作。例如,基于该数据集库,研究者开发了多种数据增强技术和自动化数据预处理工具,进一步提升了模型的泛化能力。此外,该库还为开源社区提供了丰富的数据集资源,促进了数据共享和协作研究,推动了机器学习领域的开放科学发展。
以上内容由遇见数据集搜集并总结生成



