succinctly/medium-titles-and-images

Name: succinctly/medium-titles-and-images
Creator: succinctly
Published: 2022-07-31 17:44:16
License: 暂无描述

Hugging Face2022-07-31 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/succinctly/medium-titles-and-images

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含来自Medium文章的`<标题, 编码图像>`对，原始数据来源于Kaggle上的Medium Articles Dataset (128k): Metadata + Images。图像处理过程包括从中心裁剪出正方形、调整大小为256x256，并通过dalle-mini/vqgan_imagenet_f16_16384模型编码为图像令牌。数据集包含约128k条目，适合用于预训练模型的微调或提示调优，而不适合从头训练文本到图像模型。

许可证：Apache-2.0 本数据集包含来自Medium（Medium）平台文章的`<标题，编码图像>`配对样本，其源自Kaggle平台上的[Medium Articles Dataset (128k): Metadata + Images](https://www.kaggle.com/datasets/succinctlyai/medium-data)数据集，经处理后构建而成。原始图像的预处理流程如下： 1. 针对尺寸为`(w, h)`的输入图像，从其中心裁剪出尺寸为`(n, n)`的正方形区域，其中`n = min(w, h)`。 2. 将裁剪得到的`(n, n)`尺寸图像调整至`(256, 256)`尺寸。 3. 通过[dalle-mini/vqgan_imagenet_f16_16384](https://huggingface.co/dalle-mini/vqgan_imagenet_f16_16384)模型，将尺寸为`(256, 256)`的图像编码为图像Token（Token）。需注意，本数据集共包含约12.8万个条目，规模不足以支撑文本到图像模型的端到端训练；其更适合用于针对预训练模型（如[dalle-mini](https://huggingface.co/dalle-mini/dalle-mini)）的各类操作，例如微调（fine-tuning）、[提示词微调（prompt tuning）](https://arxiv.org/pdf/2104.08691.pdf)等。

提供机构：

succinctly

原始信息汇总

数据集概述

数据集来源

该数据集源自Medium Articles Dataset (128k): Metadata + Images，包含来自Medium文章的<title, encoded_image>对。

数据处理步骤

图像裁剪：从原始图像(w, h)中裁剪出中心大小为(n, n)的正方形，其中n = min(w, h)。
图像调整：将裁剪后的(n, n)图像调整为(256, 256)大小。
图像编码：使用dalle-mini/vqgan_imagenet_f16_16384模型将(256, 256)图像编码为图像令牌。

数据集规模与用途

数据集包含约128k条记录，不适合直接用于训练端到端的文本到图像模型。
更适合用于预训练模型如dalle-mini的微调或prompt tuning等操作。

许可证

数据集遵循Apache-2.0许可证。

5,000+

优质数据集

54 个

任务类型

进入经典数据集