TensorFlow Datasets
收藏数据集概述
数据集名称: TensorFlow Datasets
数据集提供方式: 作为tf.data.Datasets提供多种公共数据集。
数据集列表: TensorFlow Datasets 列表
数据集使用示例: python import tensorflow_datasets as tfds import tensorflow as tf
查看可用数据集
print(tfds.list_builders())
加载数据集
ds_train = tfds.load(name="mnist", split="train", shuffle_files=True)
构建输入管道
ds_train = ds_train.shuffle(1000).batch(128).prefetch(10) for features in ds_train.take(1): image, label = features["image"], features["label"]
数据集构建器:
- 所有数据集实现为
tfds.core.DatasetBuilder的子类。 - 使用
tfds.builder获取DatasetBuilder实例,控制builder.download_and_prepare()和builder.as_dataset()。 - 使用
tfds.load作为便捷包装,直接返回tf.data.Dataset。
数据集信息示例:
tfds.core.DatasetInfo( name=mnist, version=1.0.0, description=The MNIST database of handwritten digits., homepage=http://yann.lecun.com/exdb/mnist/, features=FeaturesDict({ image: Image(shape=(28, 28, 1), dtype=tf.uint8), label: ClassLabel(shape=(), dtype=tf.int64, num_classes=10) }, total_num_examples=70000, splits={ test: <tfds.core.SplitInfo num_examples=10000>, train: <tfds.core.SplitInfo num_examples=60000> }, supervised_keys=(image, label), citation=""" @article{lecun2010mnist, title={MNIST handwritten digit database}, author={LeCun, Yann and Cortes, Corinna and Burges, CJ}, journal={ATT Labs [Online]. Available: http://yann. lecun. com/exdb/mnist}, volume={2}, year={2010} } """, )
NumPy使用:
- 使用
tfds.as_numpy从tf.data.Dataset返回生成器,生成NumPy数组记录。 - 可与
batch_size=-1结合使用,从返回的tf.Tensor对象获取完整数据集的NumPy数组。
引用:
@misc{TFDS, title = {{TensorFlow Datasets}, A collection of ready-to-use datasets}, howpublished = {url{https://www.tensorflow.org/datasets}}, }
数据集添加:




