mrzjy/ascii_art_generation_140k_bilingual
收藏Hugging Face2024-07-03 更新2024-07-06 收录
下载链接:
https://hf-mirror.com/datasets/mrzjy/ascii_art_generation_140k_bilingual
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含138,941个用于LLM的ASCII艺术生成的指令-响应对。数据主要来源于LAION-COCO-NLLB和Imagenet-Sketch,通过ascii-image-converter工具将图像转换为ASCII艺术,并进行了空白裁剪和格式化处理。数据集还包含一个中英双语版本,其中50%的图像描述被翻译成中文。数据过滤标准包括密度、多样性和无孤立行等。
This dataset contains supervised fine-tuning (SFT) data for fine-tuning large language models (LLMs) on ASCII art generation. The dataset includes 138,941 instruction-response samples of ASCII art, with source images primarily from LAION-COCO-NLLB and Imagenet-Sketch. Data processing involves converting images to ASCII art, cropping blank spaces, and formatting instruction-response samples. Data filtering includes checks for density, diversity, and absence of isolated lines. Additionally, the dataset offers a bilingual Chinese-English version, where 50% of the image captions are translated into Chinese.
提供机构:
mrzjy
原始信息汇总
数据集概述
基本信息
- 许可证: Apache-2.0
- 任务类别: 文本生成
- 语言: 英语、中文
- 标签: 艺术、ASCII艺术、视觉、SFT
- 数据集大小: 100K<n<1M
数据集链接
| 链接 | 语言 | 大小 |
|---|---|---|
| ascii_art_generation_140k | 英语 | 138,941 |
| ascii_art_generation_140k_bilingual | 中英双语 | 138,941 |
数据准备
训练数据描述
- 样本数量: 138,941
- 数据来源:
- 主要来自LAION-COCO-NLLB
- 部分来自Imagenet-Sketch
数据处理
- 图像转换为ASCII艺术: 使用ascii-image-converter工具进行转换。
- 空白空间裁剪: 去除多余的空白字符。
- 指令-响应样本格式: 使用简单的提示模板格式化训练样本。
数据过滤
- 密度过滤: 保留密度在0.3到0.6之间的样本。
- 多样性过滤: 过滤低多样性的样本。
- 无孤立行过滤: 过滤包含孤立行的样本。
双语版本
- 双语数据集: 包含中英双语版本,其中50%的图像描述为中文。
- 样本数量: 138,941
局限性
- 颜色支持: 当前仅支持黑白ASCII艺术生成,忽略颜色描述。
搜集汇总
数据集介绍

背景与挑战
背景概述
该数据集是一个用于文本生成的双语ASCII艺术生成数据集,包含138,941个指令-响应样本,支持英语和中文。数据通过图像转换、空白裁剪和严格过滤(如密度、多样性)处理,专门用于指令微调(SFT),但当前仅支持黑白艺术生成。
以上内容由遇见数据集搜集并总结生成



