terminusresearch/nijijourney-v6-520k-raw
收藏Hugging Face2024-06-21 更新2024-06-29 收录
下载链接:
https://hf-mirror.com/datasets/terminusresearch/nijijourney-v6-520k-raw
下载链接
链接失效反馈官方服务:
资源简介:
Synthetic Dataset: NJv6-520k数据集是从Niji平台于2024年6月20日提取的,经过过滤仅包含单一图像。日文标题通过GPT3.5过滤成英文,并存储在`gpt_caption`列中,原始标题则保存在`original_text`列中。每个文件都有一个同名的元数据JSON和txt文件,元数据与parquet表中的数据相同,txt文件用于SimpleTuner或Kohya的训练。数据集包含完整图像,解压后总磁盘消耗约为785GiB,是目前最大的Nijijourney数据源。
The Synthetic Dataset: NJv6-520k is pulled from Niji on 20 Jun 2024, filtered down to just singular images. Japanese captions are filtered via GPT3.5 into English and stored in the `gpt_caption` column, while the original captions are available as the `original_text` column. Each file has a metadata JSON and txt file with the same name, where the metadata is the same from the parquet table, and the text file is for use in SimpleTuner or Kohya for training. The dataset contains the full images, and the total disk consumed is approx. 785GiB once extracted, making it the largest currently available source of Nijijourney data.
提供机构:
terminusresearch
原始信息汇总
数据集概述
数据集名称
Synthetic Dataset: NJv6-520k
数据来源
- 数据从Niji获取,日期为2024年6月20日。
- 过滤后仅包含单一图像。
数据内容
- 包含图像文件及其对应的元数据JSON文件和文本文件。
- 元数据与parquet表格中的数据相同。
- 文本文件用于SimpleTuner或Kohya的训练。
数据处理
- 原始日文标题通过GPT3.5翻译为英文,存储在
gpt_caption列中。 - 原始标题存储在
original_text列中。
数据规模
- 数据集总大小约为785GiB(解压后)。
- 是目前可用的最大的Nijijourney数据源。
数据编译
- 使用Python脚本将所有.json文件编译为parquet文件。
- 脚本定义了各列的数据类型,并将其转换为相应的pandas数据类型。
- 最终生成的parquet文件名为
train.parquet。



