five

TensorFlow Datasets

收藏
github2020-10-13 更新2024-05-31 收录
下载链接:
https://github.com/saurabh-maurya/datasets
下载链接
链接失效反馈
官方服务:
资源简介:
TensorFlow Datasets 提供多种公共数据集,这些数据集可以作为 `tf.data.Datasets` 使用,方便与 TensorFlow、Jax 等框架集成。

TensorFlow 数据集提供了一系列公共数据集,这些数据集均可通过 `tf.data.Datasets` 进行调用,以便与 TensorFlow、Jax 等框架实现无缝集成。
创建时间:
2020-06-10
原始信息汇总

数据集概述

数据集列表

数据集使用示例

  • MNIST 数据集:
    • 加载方式: python import tensorflow_datasets as tfds ds_train = tfds.load(mnist, split=train, shuffle_files=True)

    • 数据处理: python ds_train = ds_train.shuffle(1000).batch(128).prefetch(10) for features in ds_train.take(1): image, label = features[image], features[label]

数据集特性

  • 数据集构建器:
    • : tfds.core.DatasetBuilder

    • 使用方法: python mnist_builder = tfds.builder(mnist) mnist_builder.download_and_prepare() ds = mnist_builder.as_dataset(split=train) info = mnist_builder.info

    • 数据集信息: python tfds.core.DatasetInfo( name=mnist, version=3.0.1, description=The MNIST database of handwritten digits., homepage=http://yann.lecun.com/exdb/mnist/, features=FeaturesDict({ image: Image(shape=(28, 28, 1), dtype=tf.uint8), label: ClassLabel(shape=(), dtype=tf.int64, num_classes=10), }), total_num_examples=70000, splits={ test: 10000, train: 60000, }, supervised_keys=(image, label), citation="""@article{lecun2010mnist, title={MNIST handwritten digit database}, author={LeCun, Yann and Cortes, Corinna and Burges, CJ}, journal={ATT Labs [Online]. Available: http://yann.lecun.com/exdb/mnist}, volume={2}, year={2010} }""", )

数据集版本与性能

数据集引用

  • 引用格式:

    @misc{TFDS, title = {{TensorFlow Datasets}, A collection of ready-to-use datasets}, howpublished = {url{https://www.tensorflow.org/datasets}}, }

数据集贡献

搜集汇总
数据集介绍
main_image_url
构建方式
TensorFlow Datasets(TFDS)通过`tf.data.Dataset`的形式提供了丰富的公共数据集。其构建过程依赖于`tf.data`库,该库是TensorFlow内置的高效数据管道构建工具。TFDS利用`tf.data`在加载数据集时自动构建输入管道,确保数据的高效读取与处理。此外,TFDS支持用户通过`DatasetBuilder`类自定义数据集的下载与预处理流程,进一步增强了数据集的灵活性与可扩展性。
特点
TensorFlow Datasets涵盖了广泛的机器学习任务所需的数据集,涵盖了图像、文本、音频等多个领域。每个数据集均经过标准化处理,提供了详细的元数据信息,如数据集名称、版本、描述、特征结构等。数据集的分割(如训练集、测试集)也经过精心设计,便于用户直接使用。此外,TFDS支持数据集的版本控制与特征解码,确保数据的一致性与可重复性。
使用方法
使用TensorFlow Datasets时,用户可以通过`tfds.load`函数快速加载数据集,并利用`tf.data.Dataset`的API进行数据预处理与增强。数据集的分割与切片操作可通过简单的API调用实现,支持高效的数据流水线构建。对于需要NumPy数组的用户,TFDS提供了`tfds.as_numpy`工具,将数据集转换为NumPy格式,便于与其他机器学习框架集成。此外,TFDS还支持将数据集存储于Google Cloud Storage(GCS),以应对大规模数据的需求。
背景与挑战
背景概述
TensorFlow Datasets(TFDS)是由Google主导开发的一个开源项目,旨在为机器学习和深度学习研究提供丰富且标准化的数据集。该项目自2018年推出以来,迅速成为深度学习领域的重要资源之一。TFDS通过将多种公开数据集封装为`tf.data.Dataset`格式,极大简化了数据加载和预处理的流程,使得研究人员能够更专注于模型的设计与优化。其核心研究问题在于如何高效地管理和使用大规模数据集,以支持深度学习模型的训练与评估。TFDS不仅涵盖了图像分类、自然语言处理等多个领域的数据集,还通过版本控制和特征解码等功能,确保了数据的可重复性和一致性。该项目的推出对深度学习社区产生了深远影响,推动了数据驱动的AI研究的发展。
当前挑战
TensorFlow Datasets在解决领域问题和构建过程中面临多重挑战。首先,数据集的质量和多样性是核心问题之一。尽管TFDS提供了大量数据集,但如何确保这些数据集在公平性、代表性和无偏见性方面达到高标准,仍然是一个亟待解决的问题。其次,数据集的构建过程涉及复杂的数据清洗、格式转换和特征提取,尤其是在处理大规模数据集时,如何高效地进行数据预处理和存储管理成为一大挑战。此外,TFDS需要与TensorFlow生态系统无缝集成,确保数据加载和模型训练的高效性,这对系统的兼容性和性能提出了更高要求。最后,随着数据集的不断更新和扩展,如何保持数据集的版本一致性并满足不同研究需求,也是TFDS面临的重要挑战。
常用场景
经典使用场景
TensorFlow Datasets 在机器学习和深度学习领域中,广泛应用于模型训练和评估。通过提供标准化的数据集加载接口,研究人员可以轻松地获取和处理诸如MNIST、CIFAR-10等经典数据集,从而专注于模型的设计与优化。该数据集库支持多种数据格式和预处理操作,极大地简化了数据管道的构建过程。
实际应用
在实际应用中,TensorFlow Datasets 被广泛用于图像分类、自然语言处理和语音识别等领域。例如,在医疗影像分析中,研究人员可以利用该数据集库快速加载和处理医学图像数据,加速疾病诊断模型的开发。在工业自动化中,该数据集库也为机器视觉系统的训练提供了高效的数据支持。
衍生相关工作
TensorFlow Datasets 的推出催生了许多相关的研究工作。例如,基于该数据集库的模型训练框架和工具链得到了广泛开发,进一步推动了深度学习技术的普及。此外,许多开源项目和研究论文都依赖于该数据集库提供的数据,形成了丰富的生态系统,促进了学术界和工业界的合作与创新。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作