mrzjy/ascii_art_generation_140k_bilingual

Name: mrzjy/ascii_art_generation_140k_bilingual
Creator: mrzjy
Published: 2024-07-03 06:18:02
License: 暂无描述

Hugging Face2024-07-03 更新2024-07-06 收录

下载链接：

https://hf-mirror.com/datasets/mrzjy/ascii_art_generation_140k_bilingual

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含138,941个用于LLM的ASCII艺术生成的指令-响应对。数据主要来源于LAION-COCO-NLLB和Imagenet-Sketch，通过ascii-image-converter工具将图像转换为ASCII艺术，并进行了空白裁剪和格式化处理。数据集还包含一个中英双语版本，其中50%的图像描述被翻译成中文。数据过滤标准包括密度、多样性和无孤立行等。

This dataset contains supervised fine-tuning (SFT) data for fine-tuning large language models (LLMs) on ASCII art generation. The dataset includes 138,941 instruction-response samples of ASCII art, with source images primarily from LAION-COCO-NLLB and Imagenet-Sketch. Data processing involves converting images to ASCII art, cropping blank spaces, and formatting instruction-response samples. Data filtering includes checks for density, diversity, and absence of isolated lines. Additionally, the dataset offers a bilingual Chinese-English version, where 50% of the image captions are translated into Chinese.

提供机构：

mrzjy

原始信息汇总

数据集概述

基本信息

许可证: Apache-2.0
任务类别: 文本生成
语言: 英语、中文
标签: 艺术、ASCII艺术、视觉、SFT
数据集大小: 100K<n<1M

数据集链接

链接	语言	大小
ascii_art_generation_140k	英语	138,941
ascii_art_generation_140k_bilingual	中英双语	138,941

数据准备

训练数据描述

样本数量: 138,941
数据来源:
- 主要来自LAION-COCO-NLLB
- 部分来自Imagenet-Sketch

数据处理

图像转换为ASCII艺术: 使用ascii-image-converter工具进行转换。
空白空间裁剪: 去除多余的空白字符。
指令-响应样本格式: 使用简单的提示模板格式化训练样本。

数据过滤

密度过滤: 保留密度在0.3到0.6之间的样本。
多样性过滤: 过滤低多样性的样本。
无孤立行过滤: 过滤包含孤立行的样本。

双语版本

双语数据集: 包含中英双语版本，其中50%的图像描述为中文。
样本数量: 138,941

局限性

颜色支持: 当前仅支持黑白ASCII艺术生成，忽略颜色描述。

搜集汇总

数据集介绍

背景与挑战

背景概述

该数据集是一个用于文本生成的双语ASCII艺术生成数据集，包含138,941个指令-响应样本，支持英语和中文。数据通过图像转换、空白裁剪和严格过滤（如密度、多样性）处理，专门用于指令微调（SFT），但当前仅支持黑白艺术生成。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集