five

mrzjy/ascii_art_generation_140k_bilingual

收藏
Hugging Face2024-07-03 更新2024-07-06 收录
下载链接:
https://hf-mirror.com/datasets/mrzjy/ascii_art_generation_140k_bilingual
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集包含138,941个用于LLM的ASCII艺术生成的指令-响应对。数据主要来源于LAION-COCO-NLLB和Imagenet-Sketch,通过ascii-image-converter工具将图像转换为ASCII艺术,并进行了空白裁剪和格式化处理。数据集还包含一个中英双语版本,其中50%的图像描述被翻译成中文。数据过滤标准包括密度、多样性和无孤立行等。

This dataset contains supervised fine-tuning (SFT) data for fine-tuning large language models (LLMs) on ASCII art generation. The dataset includes 138,941 instruction-response samples of ASCII art, with source images primarily from LAION-COCO-NLLB and Imagenet-Sketch. Data processing involves converting images to ASCII art, cropping blank spaces, and formatting instruction-response samples. Data filtering includes checks for density, diversity, and absence of isolated lines. Additionally, the dataset offers a bilingual Chinese-English version, where 50% of the image captions are translated into Chinese.
提供机构:
mrzjy
原始信息汇总

数据集概述

基本信息

  • 许可证: Apache-2.0
  • 任务类别: 文本生成
  • 语言: 英语、中文
  • 标签: 艺术、ASCII艺术、视觉、SFT
  • 数据集大小: 100K<n<1M

数据集链接

链接 语言 大小
ascii_art_generation_140k 英语 138,941
ascii_art_generation_140k_bilingual 中英双语 138,941

数据准备

训练数据描述

  • 样本数量: 138,941
  • 数据来源:
    • 主要来自LAION-COCO-NLLB
    • 部分来自Imagenet-Sketch

数据处理

  1. 图像转换为ASCII艺术: 使用ascii-image-converter工具进行转换。
  2. 空白空间裁剪: 去除多余的空白字符。
  3. 指令-响应样本格式: 使用简单的提示模板格式化训练样本。

数据过滤

  • 密度过滤: 保留密度在0.3到0.6之间的样本。
  • 多样性过滤: 过滤低多样性的样本。
  • 无孤立行过滤: 过滤包含孤立行的样本。

双语版本

  • 双语数据集: 包含中英双语版本,其中50%的图像描述为中文。
  • 样本数量: 138,941

局限性

  • 颜色支持: 当前仅支持黑白ASCII艺术生成,忽略颜色描述。
搜集汇总
数据集介绍
main_image_url
背景与挑战
背景概述
该数据集是一个用于文本生成的双语ASCII艺术生成数据集,包含138,941个指令-响应样本,支持英语和中文。数据通过图像转换、空白裁剪和严格过滤(如密度、多样性)处理,专门用于指令微调(SFT),但当前仅支持黑白艺术生成。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作