five

TensorFlow Datasets

收藏
github2020-05-12 更新2024-05-31 收录
下载链接:
https://github.com/reddyprasade/datasets
下载链接
链接失效反馈
官方服务:
资源简介:
TensorFlow数据集提供多种公共数据集,作为`tf.data.Datasets`使用。

TensorFlow数据集涵盖了丰富的公共数据集,可供用户以`tf.data.Datasets`的形式进行调用和应用。
创建时间:
2020-04-23
原始信息汇总

数据集概述

TensorFlow Datasets(TFDS)是一个提供多种公共数据集的库,这些数据集可以直接作为tf.data.Datasets使用。

数据集列表

数据集使用示例

  • MNIST数据集
    • 加载与处理: python import tensorflow_datasets as tfds import tensorflow as tf

      ds_train = tfds.load(mnist, split=train, shuffle_files=True) ds_train = ds_train.shuffle(1000).batch(128).prefetch(10)

    • 数据集信息:

      tfds.core.DatasetInfo( name=mnist, version=1.0.0, description=The MNIST database of handwritten digits., homepage=http://yann.lecun.com/exdb/mnist/, features=FeaturesDict({ image: Image(shape=(28, 28, 1), dtype=tf.uint8), label: ClassLabel(shape=(), dtype=tf.int64, num_classes=10) }, total_num_examples=70000, splits={ test: <tfds.core.SplitInfo num_examples=10000>, train: <tfds.core.SplitInfo num_examples=60000> }, supervised_keys=(image, label), citation=""" @article{lecun2010mnist, title={MNIST handwritten digit database}, author={LeCun, Yann and Cortes, Corinna and Burges, CJ}, journal={ATT Labs [Online]. Available: http://yann.lecun.com/exdb/mnist}, volume={2}, year={2010} } """, )

数据集构建与使用

  • DatasetBuilder
    • 数据集构建器使用示例: python import tensorflow_datasets as tfds

      mnist_builder = tfds.builder(mnist) mnist_builder.download_and_prepare() ds = mnist_builder.as_dataset(split=train) info = mnist_builder.info

NumPy使用

  • tfds.as_numpy
    • 使用示例: python train_ds = tfds.load("mnist", split="train") train_ds = train_ds.shuffle(1024).batch(128).repeat(5).prefetch(10) for example in tfds.as_numpy(train_ds): numpy_images, numpy_labels = example["image"], example["label"]

数据集引用

  • 引用格式:

    @misc{TFDS, title = {{TensorFlow Datasets}, A collection of ready-to-use datasets}, howpublished = {url{https://www.tensorflow.org/datasets}}, }

数据集请求与贡献

免责声明

  • 使用数据集前需确认数据集的使用许可和版权信息。
  • 数据集所有者可更新数据集信息或请求移除数据集。
搜集汇总
数据集介绍
main_image_url
构建方式
TensorFlow Datasets 是一个基于 TensorFlow 的数据集加载库,它通过继承和扩展 TensorFlow 的内置 `tf.data` API,实现了对多种公开数据集的便捷访问和高效处理。该库的构建方式主要依赖于将数据集封装为 `tfds.core.DatasetBuilder` 的子类,通过定义数据集的结构、下载、预处理和转换为 TensorFlow 数据集对象的过程,从而为用户提供了一系列预先构建好的数据集实例。
使用方法
使用 TensorFlow Datasets 首先需要通过 `pip` 安装库,然后可以使用 `tfds.load` 函数直接加载所需数据集,或通过 `tfds.builder` 获取 `DatasetBuilder` 实例进行更细致的操作。加载的数据集可以通过 TensorFlow 的 `tf.data.Dataset` API 进行进一步的处理,如打乱、批处理、预取等。对于需要 NumPy 数组形式数据的用户,可以使用 `tfds.as_numpy` 函数。此外,用户还可以根据指南添加新的数据集,或通过 GitHub 提出数据集请求。
背景与挑战
背景概述
TensorFlow Datasets,简称TFDS,是由Google主导开发的开源机器学习数据集集合。该数据集创建于2018年,主要研究人员来自Google Brain团队。TFDS的核心目标是提供一系列预先处理好的、易于使用的公共数据集,以方便机器学习研究者和开发者构建和训练模型。TFDS涵盖了从图像、文本到音频等多种类型的数据集,其数据集版本控制、数据切片、数据解码等功能大大简化了数据预处理流程,对机器学习领域的发展产生了重要影响。
当前挑战
TensorFlow Datasets面临的挑战主要包括:1)数据集的多样性和质量保证,随着数据集数量的增加,确保每个数据集的质量和适用性成为一项挑战;2)数据集的更新和维护,随着领域的发展,数据集需要定期更新以保持其前沿性和实用性;3)数据集的存储和访问效率,大规模数据集的存储和快速访问对数据集的性能提出了挑战。此外,数据集的版权和许可问题也是使用过程中需要注意的挑战之一。
常用场景
经典使用场景
TensorFlow Datasets作为TensorFlow的子库,其经典使用场景在于为机器学习研究者和开发者提供便捷、高效的数据加载和预处理工具。用户可以通过简单的API调用,获得结构化的数据集,并直接构建高效的数据输入管道,这对于构建和训练深度学习模型尤为重要。
解决学术问题
该数据集解决了学术研究中数据获取和预处理繁琐的问题,使得研究者能够专注于模型设计和算法优化。它支持多种数据格式,并提供版本控制、数据切片、特征解码等高级功能,极大提升了学术研究的效率和质量。
实际应用
在实际应用中,TensorFlow Datasets使得数据加载过程更加自动化和模块化,有助于快速部署机器学习项目。其支持的数据集覆盖了图像、文本、音频等多种类型,为不同领域的应用提供了丰富的数据资源。
数据集最近研究
最新研究方向
TensorFlow Datasets作为TensorFlow的内置数据集加载工具,其最新研究方向主要集中于提升数据加载效率、扩展数据集种类及增强数据集的可定制性。该工具支持多种公共数据集,为深度学习模型的训练提供了便捷。目前,研究界正利用TensorFlow Datasets探索数据增强技术在图像识别、自然语言处理等领域的应用,以及如何通过该工具实现大规模数据集的高效处理和分布式训练。此外,该领域的研究还关注于数据集的版本控制、数据隐私保护以及数据集的公平性和多样性,这些都是当前人工智能研究中的热点问题。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作