succinctly/medium-titles-and-images
收藏Hugging Face2022-07-31 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/succinctly/medium-titles-and-images
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含来自Medium文章的`<标题, 编码图像>`对,原始数据来源于Kaggle上的Medium Articles Dataset (128k): Metadata + Images。图像处理过程包括从中心裁剪出正方形、调整大小为256x256,并通过dalle-mini/vqgan_imagenet_f16_16384模型编码为图像令牌。数据集包含约128k条目,适合用于预训练模型的微调或提示调优,而不适合从头训练文本到图像模型。
许可证:Apache-2.0
本数据集包含来自Medium(Medium)平台文章的`<标题,编码图像>`配对样本,其源自Kaggle平台上的[Medium Articles Dataset (128k): Metadata + Images](https://www.kaggle.com/datasets/succinctlyai/medium-data)数据集,经处理后构建而成。
原始图像的预处理流程如下:
1. 针对尺寸为`(w, h)`的输入图像,从其中心裁剪出尺寸为`(n, n)`的正方形区域,其中`n = min(w, h)`。
2. 将裁剪得到的`(n, n)`尺寸图像调整至`(256, 256)`尺寸。
3. 通过[dalle-mini/vqgan_imagenet_f16_16384](https://huggingface.co/dalle-mini/vqgan_imagenet_f16_16384)模型,将尺寸为`(256, 256)`的图像编码为图像Token(Token)。
需注意,本数据集共包含约12.8万个条目,规模不足以支撑文本到图像模型的端到端训练;其更适合用于针对预训练模型(如[dalle-mini](https://huggingface.co/dalle-mini/dalle-mini))的各类操作,例如微调(fine-tuning)、[提示词微调(prompt tuning)](https://arxiv.org/pdf/2104.08691.pdf)等。
提供机构:
succinctly
原始信息汇总
数据集概述
数据集来源
- 该数据集源自Medium Articles Dataset (128k): Metadata + Images,包含来自Medium文章的
<title, encoded_image>对。
数据处理步骤
- 图像裁剪:从原始图像
(w, h)中裁剪出中心大小为(n, n)的正方形,其中n = min(w, h)。 - 图像调整:将裁剪后的
(n, n)图像调整为(256, 256)大小。 - 图像编码:使用dalle-mini/vqgan_imagenet_f16_16384模型将
(256, 256)图像编码为图像令牌。
数据集规模与用途
- 数据集包含约128k条记录,不适合直接用于训练端到端的文本到图像模型。
- 更适合用于预训练模型如dalle-mini的微调或prompt tuning等操作。
许可证
- 数据集遵循Apache-2.0许可证。



